1、Maven父子项目的使用
在简述maven 中会有详细描述
2、spark程序的编写
1)新建一个maven项目,并将该项目配置成scala
2)编写spark项目
(1)创建sparkconf配置
(2)创建sparkContext连接spark集群
(3)读取你的数据文件
(4)编写你的应用逻辑
(5)将结果输出
(6)关闭你的spark连接。
3、IDEA中Spark程序的运行
1)本地local模式运行【Debug】
master需要设置成为local或者local[*] * 表示多线程
2)IDEA打包集群运行提交jar包的参数
(1) --class 指定你的jar包中的主类
(2)--master 指定集群的地址
(3)--deploy-mode 可选,默认是client模式, 注意client模式和cluster模式的区别
(4)--conf 指定配置属性
(5) 指定你的jar包地址
(6)指定你的jar包的参数
3)外部集群运行【Debug】
.setJars(List("C:\\spark\\target\\wordcount-jar-with-dependencies.jar"))
.setIfMissing("spark.driver.host", "192.168.2.1")
4、提交的组件总结
1)Standalone模式
(1)Master:整个集群的管理器,负责分配资源,单独的JVM进程
(2)Worker:负责管理Executor,单独的JVM进程
(3)Driver:负责提交Jar包的客户端,
(4)client模式:Driver运行在提交端
(5)cluster模式:Driver运行在某一个Executor中。
(6)Executor:具体执行任务的容器,单独的JVM进行。
2)Yarn模式
(1)ResourceManager
(2)NodeManager
(3)我不用启动Spark集群