1 Spark On Yarn的本质
本质: 将Spark程序运行在Yarn集群中, 由Yarn集群完成资源调度工作
2 配置Spark On Yarn
关于整个配置操作, 直接参考<<spark部署文档.doc>> 文档
3 提交应用测试
- 提交之前Spark中用于计算圆周率的PY脚本
cd /export/server/spark/bin/
./spark-submit \
--master yarn \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/server/spark/examples/src/main/python/pi.py 100
- 将编写的WordCount的代码提交到Yarn平台运行
- 注意1: 需要将代码中 master参数删除, 或者 修改为 yarn
- 注意2: 读取的路径必须为HDFS, 如果是本地, 可能Yarn在运行的时候,无法找到对应的文件, 需要将所有的节点本地都得有这个文件
./spark-submit \
--master yarn \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_05_pyspark_wd.py
注意: py脚本的路径写自己的路径, 不要复制我的路径。
可能报出的错误:
错误内容: 无法加载Python的环境
原因:
1- 可能某些节点上没有安装python环境
2- 路径地址书写有误
解决方案:
如果没有安装. 那就执行安装操作
如果路径写错, 更改后, 重新运行即可
思考点: 为啥各个节点需要有python环境 而不需要pyspark环境呢?
spark框架提供了pyspark的库, 并没有提供python的环境
如何查看日志:
启动日志服务器:
## 启动MRHistoryServer服务,在node1执行命令 Yarn的日志服务
mr-jobhistory-daemon.sh start historyserver
## 启动Spark HistoryServer服务,,在node1执行命令 Spark日志服务
/export/server/spark/sbin/start-history-server.sh
- 通过Spark提供的18080日志服务器查看: 推荐使用
直接查看对应executor的日志:
1- 发现日志很少: 在配置spark on yarn的时候, 日志的级别更改为 warn 警告日志, 所以基础日志就不会被记录下来
2- 发现Driver根据就没有日志: 原因与部署模式有关系
3- spark的18080日志服务器是依赖于 Yarn提供的job history日志服务器, 如果没有这个日志服务, 18080也无法查看到具体的日志
- 查看对应线程的日志
还可以通过Yarn的8088界面查看日志:
点进去后, 如果日志比较多, 也可以点击查看详细日志
4 两种部署方式说明
当我们通过Spark-submit方式来提交Spark应用到Yarn集群或者Spark集群的时候, 提供了两种部署模式: client 和 cluster
client模式 和 cluster模式本质区别: spark应用程序中Driver程序运行的位置
client模式: Driver程序是运行在客户端的本地(应用在哪里进行提交, Driver就运行在哪里) 默认值
优势: 测试比较方便, 直接通过Driver看到最终返回的结果
弊端: 由于不在一起(Driver 和 executor 不在一个环境中), 受网络影响因素比较大, 导致执行效率比较低
一般client模式更加适合于测试使用
cluster模式: Driver程序是运行在集群中某个从节点上
优势: 提升Driver程序和executor程序之间的传输效率 从而提升整体的运行效率
弊端: 由于Driver运行在集群里面. 导致我们无法直接看到运行的结果, 如果想要看到结果, 就必须查看Driver的运行日志
一般在生产上线部署的时候, 采用cluster模式
演示操作:
- client模式:
./spark-submit \
--master yarn \
--deploy-mode client \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_02_pyspark_wd.py
- cluster模式:
./spark-submit \
--master yarn \
--deploy-mode cluster \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_02_pyspark_wd.py