一篇文章搞懂 DAGScheduler 的调度流程

最新推荐文章于 2024-06-02 13:35:46 发布

Shockang

最新推荐文章于 2024-06-02 13:35:46 发布

阅读量1.1w

点赞数 14

分类专栏：大数据技术体系文章标签：大数据 spark SparkContext

本文链接：https://blog.csdn.net/Shockang/article/details/118345648

版权

大数据技术体系专栏收录该内容

282 篇文章 568 订阅

订阅专栏

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

经过专栏前面对 DAGScheduler 的介绍，现在我们可以用下图来表示 DAGScheduler 的调度流程。

在这里插入图片描述

这里对图中的记号进行介绍。

记号①: 表示应用程序通过对 Spark API 的调用，进行一系列 RDD 转换构建出 RDD 之间的依赖关系后，调用 DAGScheduler 的 runJob 方法将 RDD 及其血缘关系中的所有 RDD 传递给 DAGScheduler 进行调度。

记号②: DAGScheduler 的 runJob 方法实际通过调用 DAGScheduler 的 submitJob 方法向 DAGSchedulerEventProcessLoop 发送 JobSubmitted 事件。
DAGSchedulerEventProcessLoop 接收到 JobSubmitted 事件后，将 JobSubmitted 事件放入事件队列( EventQueue )。

这里面实际上蕴含着 reactor 的思想。

记号③: DAGSchedulerEventProcessLoop 内部的轮询线程 eventThread 不断从事件队列( EventQueue )中获取 DAGSchedulerEvent 事件，并调用 DAGSchedulerEventProcessLoop 的 doOnReceive 方法对事件进行处理。

记号④: DAGSchedulerEventProcessLoop 的 doOnReceive 方法处理 JobSubmitted 事件时，将调用 DAGScheduler 的 handleJobSubmitted 方法。
handleJobSubmitted 方法将对 RDD 构建 Stage 及 Stage 之间的依赖关系。

记号⑤: DAGScheduler 首先把最上游的 Stage 中的 Task 集合提交给 TaskScheduler ，然后逐步将下游的 Stage 中的 Task 集合提交给 TaskScheduler 。
TaskScheduler 将对 Task 集合进行调度。