目标:
在idea中用scala编写简单代码,从本地hdfs中(或本地目录)读取文件,通过spark处理后,结果输出到本地dhfs或本地目录。
然后修改代码,将项目打成jar包,上传到linux中,在spark集群上运行。
环境:hadoop2.7.2 +spark2.2.3 +scala 2.11.8 +idea2018
以上环境的具体安装配置和idea的基本操作分别见:
windows上 IntelliJ IDEA安装scala环境 : https://blog.csdn.net/csdn_dengfan/article/details/88363224
windows 安装 配置 hadoop2.7.2 spark2.2.3 :https://blog.csdn.net/csdn_dengfan/article/details/88375313
1.编写代码
目录结构:
Ts的代码:
val conf = new SparkConf().setAppName("Ts&#