Spark On Yarn

Answerlzd

已于 2022-12-24 18:14:31 修改

阅读量365

点赞数

分类专栏： Spark 文章标签： spark 大数据分布式

于 2022-12-24 18:14:02 首次发布

原文链接：https://www.bilibili.com/video/BV1Jq4y1z7VP?p=23

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一些知识点：

1. Spark On Yarn的本质？

一句话：Spark程序运行在Yarn容器内部。

资源管理层面：

StandAlone中的Master角色由YARN的ResourceManager担任

StandAlone中的Woker角色由YARN的NodeManager 担任

任务运行层面：

Driver角色运行在YARN容器内或提交任务的客户端进程中

Exectuor运行在YARN提供的容器内

总之，Spark On Yarn就是让Spark运行在Yarn容器内部，资源管理交给Yarn的ResourceManager and NodeManager.

2. Sparn On Yarn的准备

安装好Yarn集群
有一台机器安装Spark客户端工具，比如spark-submit, this tool can submit jobs into YARN
被提交的代码程序，spark/example/src/main/python/pi.py

3. 部署时确保 HARDOOP_CONF_DIR 和 YARN_CONF_DIR在spark-env.sh以及环境变量文件中

4. 连接到YARN中

bin/pyspark --master yarn

5. DeployMode

Spark On Yarn有两种运行模式，分别为Cluster and Client，区别在于Driver运行的位置

Cluster: Driver运行在YARN容器内部，和ApplicationMaster在同一个容器内
Client: Driver运行在客户端进程中，比如运行在spark-submit程序的进程中

bin/spark-submit --master yarn --deploy-mode client test.py

优缺点：

Cluster通讯成本低，因为Driver在YARN容器内部，不需要跨集群

Cluster模式看日志不太方便

客户端模式的提交流程：

集群模式的提交流程：

REF:

Spark基础入门-第五章-5.1-Spark On YARN的运行原理_哔哩哔哩_bilibili

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spark On Yarn

总之，Spark On Yarn就是让Spark运行在Yarn容器内部，资源管理交给Yarn的ResourceManager and NodeManager.Spark On Yarn有两种运行模式，分别为Cluster and Client，区别在于Driver运行的位置。StandAlone中的Master角色由YARN的ResourceManager担任。Cluster通讯成本低，因为Driver在YARN容器内部，不需要跨集群。一句话：Spark程序运行在Yarn容器内部。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。