spark架构原理（一）

最新推荐文章于 2024-07-23 17:53:45 发布

灿烂拿到

最新推荐文章于 2024-07-23 17:53:45 发布

阅读量1.1k

点赞数

分类专栏： spark学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012110804/article/details/73276555

版权

spark学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

spark内核架构由一下几部分组成
1、Application
自己的spark程序

2、spark-submit
提交任务， standalone模式下会创建一个DriverActor进程

3、Driver（进程）
执行application程序，初始化sparkcontext，

4、SparkContext
构造DAGschedule和TaskSchedule

8、Job
每执行一个action，会创建一个job，提交给DAGSchedule。

5、DAGScheduler
DAGschedule会将job按照stage划分算法划分为stage，并为每一个stage创建taskset。

6、TaskScheduler
通过一个后台进程连接master，向master注册application，并接受excutor的反向注册，然后将taskset中的每一个task提交到excutor上（task分配算法）。

7、Master
master接收到application注册请求后，使用资源调度算法，在集群的worker上，为这个application启动多个excutor。

6、Worker
worker为application启动excutor

7、Executor
executor启动后，反向注册到taskscheduler上，executor本身是一个进程，包括一个线程池和taskRunner，每接收到一个task，taksRunner封装task，对要执行的程序，拷贝反序列化。然后从线程池中取出一个线程，执行task。

11、ShuffleMapTask and ResultTask
task有两张，shufflemaptask和resulttask，只有最后一个stage是resultTask，之前的stage都是shufflemaptask。

stage作为taskset提交给excutor执行，每个task执行rdd的一个partition。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。