Spark架构分析（一）

最新推荐文章于 2024-04-13 18:49:38 发布

王胡雄

最新推荐文章于 2024-04-13 18:49:38 发布

阅读量136

点赞数

分类专栏： Spark 文章标签： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41733481/article/details/96161925

版权

Spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

spark-submit使用standalone模式提交的时候，会通过反射的方式，创建和构造一个DriverActor进程出来

Driver进程执行我们编写的代码，构造出SparkContext，SparkContext在初始化的时候，做的最重要的两件事情，就是构造出
DAGScheduler和TaskScheduler.

构造TaskScheduler时，通过自己的后台进程进程去连接Spark集群中的Master，向Mater注册Application

Master接收到Application注册的请求之后，会使用自己的资源调度算法，在spark集群的worker上，为这个Application启动多个Executor

Master通知worker启动Executor. (SparkContext是一个对象，Executor是一个进程)

Executor启动后干的第一件事情：自己反向注册到TaskScheduler上去。（这样TaskScheduler就知道master为自己启动了几个Executor）

当所有Excutor都反向注册到driver上完成以后，Driver结束SparkContext初始化，继续执行我们自己编写的代码

每执行到一个action，就会创建一个job，job会提交给DAGScheduler

DAGScheduler会降job划分为多个stage（每次宽依赖），然后每个stage创建一个TaskSet。

每个TaskSet会给TaskScheduler会吧TaskSet里的每一个Task提交到Executor上执行（task分配算法）

Executor中有线程池。

Executor每接收到一个task，都会用TaskRunner来封装task，然后从线程池取出一个线程来执行这个Task

   TaskRunner：将我们编写的代码，也就是要执行的算子以及函数，拷贝，反序列化，然后执行Task


   Task有两种：ShuffleMapTask和ResultTask，只有最后一个stage是ResultTask，之前的stage都是shuffleMapTask

所以，最后整个spark应用程序的执行，就是stage分批次作为taskset提交到executor执行，每个task针对RDD
的一个partition，执行我们定义的算子和函数，以此类推，知道所有操作执行完毕为止。

SparkContext的架构图

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。