一、Spark On YARN架构
二、搭建Spark On YARN集群
(一)搭建Spark Standalone集群
(二)修改Spark环境配置文件
Spark On YARN模式的搭建比较简单,仅需要在YARN集群的一个节点上安装Spark即可,该节点可作为提交Spark应用程序到YARN集群的客户端。Spark本身的Master节点和Worker节点不需要启动。
使用此模式需要修改Spark配置文件spark-env.sh,添加Hadoop相关属性,指定Hadoop与配置文件所在目录
存盘退出后,执行命令:source spark-env.sh
,让配置生效
三、提交Spark应用到集群运行
(一)启动HDFS和YARN
- 执行命令:
start-dfs.sh