目录
1、创建Maven工程
IDEA中,新建Maven工程,用于项目依赖包管理和项目构建等
2、引入Spark依赖包
配置pom.xml文件,引入maven中心仓库地址、新增Spark依赖包配置和任务的构建配置项
、创建本地测试文件
创建本地测试文件,格式与分布式存储的文件一样
比如创建data/appinstall文件,文件中每行是一个json串
4、编写spark代码
a、数据类型的选择:因为存储的是json串,选择DataFrame类型进行处理
b、读入输入文件,创建入口类SparkContext,然后创建DataFrame,并使用DataFrame操作进行app安装量统计
5、运行程序,得出结果
本地Run程序,生成运行结果放在data/appinstallnum目录下
6、作业提交到集群运行
详见:https://blog.csdn.net/lovechendongxing/article/details/81748004