Spark 调度架构原理深度解析

最新推荐文章于 2022-05-29 20:28:18 发布

张章章Sam

最新推荐文章于 2022-05-29 20:28:18 发布

阅读量4.6k

点赞数

文章标签： spark 架构集群框架

本文链接：https://blog.csdn.net/qq_16103331/article/details/53383510

版权

Spark 调度框架原理图（深度）

我们的说明是基于Spark standalone模式来给大家说明的，集群里面一主二从，也就是说有一个Master，两个Worker节点

Driver
spark-submit.sh Driver我们用来向Spark 集群提交spark程序的，
最最重要的作用就是创建SparkContext,用于创建RDD ,以及等的操作
在生产环境里面，一般都会有一台单独的物理机能够连接上Spark集群，用来提交Spark程序

首先当然启动集群（启动的方式 sbin/start-all.sh,将master和worker都启动）时，我们worker就需要向master汇报当前自身状态，以及硬件资源，比如cpu,比如内存，master会将这一步数据保存下来，并向worker节点反馈【Master实际上就是对集群资源的调度，管理，和监控】
Master节点记录worker汇报过来的状态信息，硬件资源信息，并向worker节点反馈
worker节点需要时不时向master来汇报当前节点状态信息，这个就是通过AKKA Actor 的Actor 模型中的心跳机制来完成的
Driver 会通过Spark-submit 向 spark 集群提交任务，通过setnaster/ –master可找到 master，向master打一声招呼，也就是通过RegisterApplication 向 master进行注册该 application ，这个过程当然是异步的ra ! mddfsd,告诉master为我当前的Driver预留资源
Master就是进程，是一个基于AKKA actor的Actor模型，是一个java进程，接受Driver的注册信息
当接受到Driver的注册请求的时候 Master则会为该application分配资源，让worker执行该application,2个worker来均分干这一件事
worker节点接受到master的任务分配之后，会向master汇报,worker接受到任务了，同时master会向driver汇报worker已经接收到任务
driver接收到master传递过来的注册反馈信息，就明确了application 在哪一个worker上运行，需要什么样的资源，加载数据源，也会将数据源分发到不同的worker上的patition
这个时候worker节点就会启动excutor进程，task线程来操作相应的partition中的数据
运行一段时间之后，executor 都会向driver来汇报运行情况，如果完成某一操作之后，worker就会释放掉其所持有的cpu,core，内存资源，等待所有的操作完成之后，就会释放所有的资源信息，sc.close() –>application 结束
worker会把相关的application的资源彻底释放

张章章Sam

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark 调度架构原理深度解析

Spark 调度框架原理图（深度）我们的说明是基于Spark standalone模式来给大家说明的，集群里面一主二从，也就是说有一个Master，两个Worker节点 Driver spark-submit.sh Driver我们用来向Spark 集群提交spark程序的，最最重要的作用就是创建SparkContext,用于创建RDD ,以及等的操作在生产环境里面，一般都会有一台单
复制链接

扫一扫