- 运行环境
我们的项目程序需要结合运行环境(资源)才能运行和计算,为此需要准备好环境。
xcall jps 查看机器进程;
目前有的模式是local模式,独立运行模式,和yarn模式(生产环境使用最多)
- local模式(1台机器)
不需要其他节点资源可以在本地运行spark的环境,不同于在IDEA运行的local方式(开发环境),local模式,不同于前面篇章代码里的local(运行完就不存在了),这里的local模式是指在本地安装好什么时候使用都可以;;
一般步骤是在linux中是解压spark-3.0.0-bin-hadoop3.2.tgz文件放到指定位置--》启动local环境bin/spark-shell--》可以编写scala代码了;
退出:quit
也可提交应用spark-submit
启动成功后有经典显示spark标识,也可以访问webui监控页面;
- Standalone模式(3台机器)
1. 只使用spark自身节点(既自身提供计算资源,无需其他框架提供资源,这个方式降低了和其他第三方资源框架的耦合性)运行的集群模式,体现master-slave模式,一般3台机器。
在linux中是解压spark-3.0.0-bin-hadoop3.2.tgz文件放到指定位置--->修改配置文件conf文件夹下的slaves.template(改名为slaves),增加配置内容--->spark-env.sh.template改名为spark-env.sh,增加配置内容 --->
分发spark-standalone(命令为:xsync spark-standalone) --->启动脚本 sbin/start-all.sh;
2. 可提交应用spark-submit,也可以访问webui监控页面
3. 配置历史服务(记录任务运行情况)--待学习
4. 配置高可用HA,一般采用zookeeper设置多个master节点,防止单个master节点发生故障,能有备用master提供服务。---配置操作待学习;
- yarn模式(生产环境,1台机器)
1. 本质上spark是计算框架,并不是资源调度框架,所以它本身带有的资源调度并不是强项,为此需要融合其他专业资源调度框架yarn;
2.解压---修改配置文件---启动HDFS和YARN---提交应用---可以看webui页面---配置历史服务器存储日志和看任务执行情况(详细步骤待补充);
3.混合部署,需要启动HDFS和YARN进程;
- windows模式
在windows系统下本地启动集群的方式
基于实际工作选的版本spark-1.6.0-bin-hadoop2.6.tgz 将解压到 F:\javasource\Spark\spark-1.6.0;
环境变量设置 控制面板\系统和安全\系统--高级系统设置
CLASSPATH
.;%JAVA_HOME%\bin;%JAVA_HOME%\lib\tools.jar;.;%SCALA_HOME%\bin;%SCALA_HOME%\lib\dt.jar;%SCALA_HOME%\lib\tools.jar.;
SCALA_HOME F:\javasource\Scala
SPARK_HOME F:\javasource\Spark\spark-1.6.0