Yarn-client与Yarn-cluster工作模式原理图

最新推荐文章于 2023-03-01 10:04:19 发布

山河念远之追寻

最新推荐文章于 2023-03-01 10:04:19 发布

阅读量204

点赞数

文章标签：机器学习数据挖掘 spark hadoop hdfs

本文链接：https://blog.csdn.net/weixin_37684231/article/details/112529525

版权

1、Yarn-client模式的工作流程
在这里插入图片描述
2、Yarn-cluster模式的工作流程

在这里插入图片描述
Spark框架的工作流程可以归纳为以下几步：
（1）在Spark中构建应用Application的运行环境，生成上下文SparkContext，SparkContext注册到资源管理器（例如Standalone、Yarn、Mesos等），申请Executor运行资源；
（2）资源管理器为Executor分配资源，启动StandaloneExecutorBackend，Executor会定时发送心跳信息到资源管理器，资源管理器监听和维护Executor；
（3）Spark构建DAG，DAG分解成为不同的Stage，这是Spark的计算模型，使用RDD来构建和编译。TaskSet发送任务给Task Scheduler。Executor会去SparkContext申请任务Task，任务调度Task Scheduler指派Task给Executor运行；
（4）在Executor中运行Task，结束以后释放资源。
相关工作流程如下图所示：

在这里插入图片描述
在Spark中，计算模型和工作任务模型都被表示为Stage，Stage的组成使用RDD（Resilient Distributed Datasets），形成DAG相关的计算模型，RDD的执行流程和工作原理如下：
（1）针对应用程序代码，Driver通过action算子形成边界，连接成为DAG；
（2）DAG Scheduler以shuffle算子为边，划分Stage，顺序是从DAG末端进行。Stage划分完成后，划分多个Task，DAG Scheduler将Task的集合TaskSet传给Task Scheduler，准备任务调用；
（3）Task Scheduler 根据分布式调度算法（可以自定义算法），将TaskSet中的Task分为WorkNode计算节点，计算节点中的Executor执行任务。
具体原理如下图所示：
在这里插入图片描述
在Spark中，执行计算的算子作为Task来进行的，Task Scheduler是Spark中重要的调度组件，Task Scheduler负责调度Task给Executor执行。它的调度模式主要是FIFO（先进先出）和FAIR（公平调度）。Spark适用于大型的任务并行计算，通过分布式的方式能极大地提高大规模和复杂问题的计算速度。

山河念远之追寻

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Yarn-client与Yarn-cluster工作模式原理图

1、Yarn-client模式的工作流程2、Yarn-cluster模式的工作流程Spark框架的工作流程可以归纳为以下几步：（1）在Spark中构建应用Application的运行环境，生成上下文SparkContext，SparkContext注册到资源管理器（例如Standalone、Yarn、Mesos等），申请Executor运行资源；（2）资源管理器为Executor分配资源，启动StandaloneExecutorBackend，Executor会定时发送心跳信息到资源管理器，资源
复制链接

扫一扫