【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析

最新推荐文章于 2023-10-20 09:39:34 发布

ZLWQ

最新推荐文章于 2023-10-20 09:39:34 发布

阅读量155

点赞数

分类专栏： Python 博学谷IT技术支持文章标签：大数据 spark 学习

本文链接：https://blog.csdn.net/qq_42198232/article/details/128891298

版权

博学谷IT技术支持同时被 2 个专栏收录

40 篇文章 1 订阅

订阅专栏

Python

12 篇文章 0 订阅

订阅专栏

1 Spark On Yarn的本质

本质：将Spark程序运行在Yarn集群中, 由Yarn集群完成资源调度工作

2 配置Spark On Yarn

关于整个配置操作, 直接参考<<spark部署文档.doc>> 文档

3 提交应用测试

提交之前Spark中用于计算圆周率的PY脚本

cd /export/server/spark/bin/
./spark-submit \
--master yarn \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/server/spark/examples/src/main/python/pi.py  100

将编写的WordCount的代码提交到Yarn平台运行
- 注意1：需要将代码中 master参数删除，或者修改为 yarn
- 注意2: 读取的路径必须为HDFS，如果是本地，可能Yarn在运行的时候，无法找到对应的文件，需要将所有的节点本地都得有这个文件

./spark-submit \
--master yarn \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_05_pyspark_wd.py

注意：  py脚本的路径写自己的路径， 不要复制我的路径。

可能报出的错误:

在这里插入图片描述

错误内容: 无法加载Python的环境

原因:
	1- 可能某些节点上没有安装python环境
	2- 路径地址书写有误

解决方案: 
	如果没有安装. 那就执行安装操作
	如果路径写错, 更改后, 重新运行即可
	
 
思考点: 为啥各个节点需要有python环境 而不需要pyspark环境呢? 

spark框架提供了pyspark的库, 并没有提供python的环境

如何查看日志：

启动日志服务器: 
	## 启动MRHistoryServer服务，在node1执行命令   Yarn的日志服务
	mr-jobhistory-daemon.sh start historyserver 
	## 启动Spark HistoryServer服务，，在node1执行命令   Spark日志服务
	/export/server/spark/sbin/start-history-server.sh

通过Spark提供的18080日志服务器查看：推荐使用

在这里插入图片描述

直接查看对应executor的日志：

在这里插入图片描述

1- 发现日志很少:   在配置spark on yarn的时候， 日志的级别更改为 warn  警告日志， 所以基础日志就不会被记录下来

2- 发现Driver根据就没有日志： 原因与部署模式有关系

3- spark的18080日志服务器是依赖于 Yarn提供的job history日志服务器， 如果没有这个日志服务， 18080也无法查看到具体的日志

查看对应线程的日志

在这里插入图片描述

还可以通过Yarn的8088界面查看日志：

在这里插入图片描述

点进去后，如果日志比较多，也可以点击查看详细日志

在这里插入图片描述

4 两种部署方式说明

当我们通过Spark-submit方式来提交Spark应用到Yarn集群或者Spark集群的时候, 提供了两种部署模式: client 和 cluster

client模式 和 cluster模式本质区别:  spark应用程序中Driver程序运行的位置
	

client模式: Driver程序是运行在客户端的本地(应用在哪里进行提交, Driver就运行在哪里) 默认值
	优势: 测试比较方便, 直接通过Driver看到最终返回的结果
	弊端: 由于不在一起(Driver 和 executor 不在一个环境中), 受网络影响因素比较大, 导致执行效率比较低
	
	一般client模式更加适合于测试使用

cluster模式:  Driver程序是运行在集群中某个从节点上
	优势: 提升Driver程序和executor程序之间的传输效率 从而提升整体的运行效率
	弊端: 由于Driver运行在集群里面. 导致我们无法直接看到运行的结果, 如果想要看到结果, 就必须查看Driver的运行日志
	
	一般在生产上线部署的时候, 采用cluster模式

演示操作:

client模式:

./spark-submit \
--master yarn \
--deploy-mode client \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_02_pyspark_wd.py

在这里插入图片描述

cluster模式:

./spark-submit \
--master yarn \
--deploy-mode cluster \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_02_pyspark_wd.py

在这里插入图片描述