DAGScheduler源码解析之Stage划分

最新推荐文章于 2021-02-25 22:01:26 发布

elegant0124

最新推荐文章于 2021-02-25 22:01:26 发布

阅读量694

点赞数

分类专栏： spark 文章标签： DAGScheduler Stage

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/elegant1029/article/details/39477753

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

上篇文章DAGScheduler主要是对DAGScheduler作用简要描述，本次结合源码解析DAGScheduler如何划分Stage。

spark在提交作业时，首先会提交给DAGScheduler，划分成若干个Stage，具体是如何划分的呢？首先根据最后一个RDD,创建一个Stage,在创建Stage时，会获取该Stage的所有的父Stage，在获取父Stage的过程中，完成了本次提交的作业Stage划分。

在newStage方法中，首先创建一个Stage，同时要注意创建时getParentStage()方法

在new Stage()方法中获取当前RDD的所有的Stage，获取给rdd的所有依赖，根据依赖进行划分，如果当前依赖为窄依赖，继续递归其父rdd的情况，直道所有的父级RDD结束。如果遇到宽依赖会创建Stage。创建Stage过程中也会获取其父Stage,这样讲整个RDD和及其依赖遍历完。

首先判断当前的RDD的依赖，如果是宽依赖，会调用getShuffleMapStage创建Stage，同时和之前遍历的Stage合并做为当前的parent stage。

在newOrUsedStage方法中，有调用之前的newStage()方法，同时判断mapOutputTracker中是否含有shuffleId，主要是对该Stage输出记录的。

经过一系列循环过程完成了Stage划分。同时看到在每一个Stage中都包含了其父类。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DAGScheduler源码解析之Stage划分

上篇文章DAGScheduler
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。