Spark的Task执行原理流程

最新推荐文章于 2024-01-29 15:27:28 发布

u013063153

最新推荐文章于 2024-01-29 15:27:28 发布

阅读量954

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013063153/article/details/54906807

版权

Spark 专栏收录该内容

138 篇文章 6 订阅

订阅专栏

1.当Driver中的CoarseGrainedSchedulerBackend给CoarseGrainedExecutorBackend发送LaunchTask之后，CoarseGrainedExecutorBackend在收到LaunchTask消息后，首先会反序列化TaskDescription

2.Executor会通过launchTask来执行Task

3.TaskRunner在ThreadPool来运行具体的Task,在TaskRunner的run方法中首先会通过调用statusUpdate给Driver发信息汇报自己的状态，说明自己是Running状态

4.TaskRunner内部会做一些准备工作：例如反序列化Task的依赖

5.然后是反序列化Task本身

6.调用反序列化后的Task.run方法来执行任务并获取执行结果

其中Task的run方法调用时会到时Task的抽象方法runTask的调用，runTask内部会调用RDD的iterator()方法，该方法就是针对当前Task所对应的Partition进行计算的关键所在，在处理内部会迭代Partition的元素，并交给我们自定义的function进行处理。

ShuffleMapTask

ShuffleMapTask在计算具体的Partition之后会通过ShuffleManager获得的ShuffleWriter把当前Task计算的结果根据具体的ShuffleManager的实现来写入到具体的文件，操作完成后会把MapStatue发送给DAGScheduler。

ResultTask

根据前面Stage的执行结果进行Shuffle产生整个Job最后的结果

MapOutputTracker 会把ShuffleMapTask执行结果交给ResultTask。

Driver -> DAGScheduler -> MapOutputTracker ->

对于ShuffleMapTask，首先要对RDD极其依赖关系进行反序列化

最终计算会调用RDD的compute方法。

7.把执行结果序列化

补充：
1.在执行具体Task的业务逻辑前会进行四次反序列化

a>TaskDescription

b>反序列化Task的依赖

c>Task

d>RDD

2.

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。