大数据之 Spark DAG

转身成为了码农

于 2024-02-01 10:46:28 发布

阅读量577

点赞数 12

文章标签：大数据 spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alphonse_10/article/details/135968795

版权

Spark Directed Acyclic Graph (DAG) 是 Apache Spark 中的核心概念，它用于描述作业（job）的计算逻辑。在 Spark 中，用户通过对 RDD（Resilient Distributed Datasets）的操作构建一系列转换和动作，这些操作会形成一个有向无环图结构。

DAG 的构成：

节点（Vertices）：DAG 中的每个节点代表了对数据的一次转换或动作。在 Spark 中，转换如 map(), filter(), join() 等函数应用于 RDD 时创建新的节点；而动作如 reduce(), collect(), count() 等触发执行并返回结果给驱动程序的动作也作为节点。
边（Edges）：DAG 中的边表示节点间的依赖关系。如果一个节点的输出是另一个节点的输入，则它们之间存在一条边。例如，在连续调用两次转换操作 rdd.map(...).filter(...) 时，map 节点到 filter 节点就有一条依赖边。

DAG 的作用：

优化执行计划：Spark 的 DAGScheduler 根据 DAG 来进行任务调度和优化，合并多个连续的转换操作为更少的阶段（stage），每个阶段内部的任务可以并行执行。
容错性：由于 DAG 描述了完整的计算过程和依赖关系，当某个任务失败时，Spark 可以根据 DAG 重新计算丢失的数据，实现容错处理。
高效执行：通过分析 DAG，Spark 能够识别出 Shuffle 操作等瓶颈阶段，并提前进行资源分配和优化。

执行流程：

用户提交一个 Spark 应用程序，其中包含了一系列的 RDD 转换和动作操作。
Spark 将这些操作组织成一个 DAG。
DAGScheduler 将 DAG 分解成一序列的 stage，每个 stage 包含一组可以并行运行的任务。
TaskScheduler 将任务分发到集群中的各个工作节点（executor）上执行。
当遇到 Shuffle 操作时，Spark 会在不同阶段之间执行实际的数据交换和分区。
执行完所有阶段后，最终的结果返回给驱动器（driver）程序。

转身成为了码农

博客等级

码龄7年

127
原创

1356
点赞

1183
收藏

1002
粉丝

关注

私信

热门文章

最新评论

MySQL表分区
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
大数据之 spark 任务划分
转身成为了码农: 你说得对
大数据之 spark 任务划分
daleHaven: 博主，您好，关于第4条是否改为"Task的数量取决于Stage最后一个RDD分区的数量，以及是否涉及到shuffle阶段。"更为严谨？望参考。
编辑markdown软件推荐
CSDN-Ada助手: 非常感谢您分享这篇关于“编辑markdown软件推荐”的博客！恭喜您在创作上的持续努力和成果。阅读您的博客后，我对各种markdown编辑软件有了更深入的了解，这对我来说非常有帮助。接下来，如果您愿意的话，我想提供一些建议，希望对您的下一步创作有所帮助。考虑到您对markdown编辑软件有独到的见解，或许您可以探索更多关于这些软件的细节。例如，您可以深入研究每个软件的特点、适用场景、使用技巧等方面，并结合自己的经验，给读者提供更多实用的建议和心得。再次感谢您的分享，期待您未来更多精彩的创作！希望您能继续保持谦虚的态度，不断进步。
Hadoop入门概述
CSDN-Ada助手: 恭喜你写了第6篇博客！Hadoop入门概述这个话题非常实用，能够帮助更多的读者了解Hadoop的基本概念和应用场景。接下来，我建议你可以考虑深入探讨Hadoop的具体组件和实际应用案例，这样能够让读者更加深入地了解Hadoop的实际运作和应用价值。期待你的下一篇文章！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。