IDEA编写wordcount,读取hdfs文件,运行在Spark集群例子
发布时间:2018-10-31 10:10,
浏览次数:822
, 标签:
IDEA
wordcount
hdfs
Spark
前期:已安装好hadoop集群和spark集群,hadoop2.6.5,spark2.3.1,jdk1.8. scala2.1.0
第一步:在idea编写scala程序,并且要打包(pom文件的build标签中配置好maven打包代码,可以定义主类也可以在提交的时候再定义){补充:可以在spark本地调试程序,新建一个application,添加代码主类,program
arguments可以添加传入的参数}
maven打包在:veiw-->Tool Windows-->Maven Projects打开窗口 点击clean,再点击package打好jar包
第二步:启动hadoop和spark集群,将数据传到hdfs上。
第三步:将打好的jar包上传到集群上,使用spark-submit提交任务
spark-submit --class wang.SparkWC --executor-memory 512m
--total-executor-cores 2 /root/Download/SparkTest-1.0-SNAPSHOT.jar
hdfs://wang-one/user/data/in.txt/ hdfs://wang-one/user/output
spark-submi