spark内核执行流程简单说明

最新推荐文章于 2023-04-22 09:31:40 发布

卡奥斯道

最新推荐文章于 2023-04-22 09:31:40 发布

阅读量349

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kaaosidao/article/details/77478928

版权

spark 专栏收录该内容

33 篇文章 2 订阅

订阅专栏

前提：基于spark standalone模式进行说明。

Driver：实际是通过spark-submit脚本提交的内部创建sparkContext的main程序。

sparkContext：最重要的是创建并初始化sparkContext对象。

DAGScheduler:根据代码业务逻辑，将transformation划分出各个stage，再对每一个stage分配一批task，构成taskset交给taskscheduler

TaskScheduler:将taskset序列化后，分发给executor。

SchedulerBackend:用于接受executor的反向注册，与TaskScheduler交织一起完成任务。

SparkUI:用于监控。Spark Application在运行过程中对资源（cpu、core、memory）的消耗，查看DAG以及application执行各个阶段stage的

运行状态，每个executor执行开始结束时间、每个task的开始结束时间、处理的数据量等等。

通过执行spark-submit脚本，获取执行参数，并将这些参数封装到类DriverDescription中，创建sparkContext，向saprk集群中的master

节点发送该application的信息(基于AKKA Actor事件驱动模型的RegisterApplication的样例类)

Spark集群

master节点：接受到Driver发送的注册请求，根据请求资源信息，在work中分配相应的executor、cpu、core、memory(也是基于事件驱动模型向worker发送启动相应的executor

指令)

worker节点：接受master发送的指令后，在当前节点上启动相应的executor

executor：向SchedulerBackend反向注册，TaskScheduler将taskset分批发送对应的executor(所以task需要序列化)

executor获取一个个的task(反序列化)，并将其添加至本地线程池中。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。