Spark中的有向无环图(DAG:Directed Acyclic Graph)

时下握今

已于 2023-06-27 16:50:49 修改

阅读量4k

点赞数 7

分类专栏：数据计算与分析组件文章标签：大数据 spark

于 2020-06-17 18:02:36 首次发布

本文链接：https://blog.csdn.net/weixin_37536020/article/details/106815387

版权

数据计算与分析组件专栏收录该内容

13 篇文章

订阅专栏

本文深入探讨了Spark中DAG（有向无环图）的生成过程与State的划分，详细解释了RDD间的窄依赖与宽依赖关系，以及它们如何影响任务的执行流程。通过了解Spark的DAG和Task机制，读者可以更好地优化Spark作业，提升大数据处理效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DAG是什么

RDD间存在什么样的依赖关系

DAG的State是什么

DAG是什么

如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG图）。Spark的计算过程，很多时候都有先后顺序，受制于某些任务必须比另一些任务较早执行的限制，必须对任务进行排队，形成一个队列的任务集合，这个队列的任务集合就是DAG图。每一个定点就是一个任务，每一条边代表一种限制约束（Spark中的依赖关系）。

Spark中DAG生成过程的重点是对Stage的划分，Stage的划分依赖RDD宽窄依赖，当Driver程序提交后，Spark调度器将所有的RDD看成是一个Stage，然后对此Stage进行从后往前的回溯，遇到Shuffle就断开，形成一个新的State，遇到窄依赖，则归并到同一个Stage。等到所有的步骤回溯完成，便生成一个DAG图