Spark技术内幕: Task向Executor提交的源码解析

最新推荐文章于 2022-03-28 15:01:46 发布

anzhsoft

最新推荐文章于 2022-03-28 15:01:46 发布

阅读量2.2w

点赞数 6

分类专栏： Spark 云计算 Spark技术内幕文章标签： rdd spark 任务调度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anzhsoft/article/details/40238111

版权

本文深入探讨Spark的DAGScheduler如何提交Task到Executor。从submitMissingTasks开始，详细解析Task生成、序列化、TaskSet管理以及Executor执行Task的整个流程。

摘要由CSDN通过智能技术生成

在上文《Spark技术内幕：Stage划分及提交源码分析》中，我们分析了Stage的生成和提交。但是Stage的提交，只是DAGScheduler完成了对DAG的划分，生成了一个计算拓扑，即需要按照顺序计算的Stage，Stage中包含了可以以partition为单位并行计算的Task。我们并没有分析Stage中得Task是如何生成并且最终提交到Executor中去的。

这就是本文的主题。

从org.apache.spark.scheduler.DAGScheduler#submitMissingTasks开始，分析Stage是如何生成TaskSet的。

如果一个Stage的所有的parent stage都已经计算完成或者存在于cache中，那么他会调用submitMissingTasks来提交该Stage所包含的Tasks。

org.apache.spark.scheduler.DAGScheduler#submitMissingTasks的计算流程如下：

首先得到RDD中需要计算的partition，对于Shuffle类型的stage，需要判断stage中是否缓存了该结果；对于Result类型的Final Stage，则判断计算Job中该partition是否已经计算完成。
序列化task的binary。Executor可以通过广播变量得到它。每个task运行的时候首先会反序列化。这样在不同的executor上运行的task是隔离的，不会相互影响。
为每个需要计算的partition生成一个task：对于Shuffle类型依赖的Stage，生成ShuffleMapTask类型的task；对于Result类型的Stage，生成一个ResultTask类型的task
确保Task是可以被序列化的。因为不同的cluster有不同的taskScheduler，在这里判断可以简化逻辑；保证TaskSet的task都是可以序列化的
通过TaskScheduler提交TaskSet。

TaskSet就是可以做pipeline的一组完全相同的task，每个task的处理逻辑完全相同，不同的是处理数据，每个task负责处理一个p

最低0.47元/天解锁文章

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
14
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 14

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。