spark的宽依赖，窄依赖

最新推荐文章于 2024-06-25 23:48:43 发布

三水青一人尤

最新推荐文章于 2024-06-25 23:48:43 发布

阅读量514

点赞数 7

分类专栏： spark 文章标签： spark 数据结构 linux hive sql

本文链接：https://blog.csdn.net/WQY867047910/article/details/134921920

版权

4 篇文章 0 订阅

订阅专栏

在 Apache Spark 中，依赖关系是指 RDD（弹性分布式数据集）之间的关系。依赖关系的类型对于理解 Spark 的任务调度、分区和故障恢复等方面至关重要。Spark 中主要有两种类型的依赖关系：窄依赖（Narrow Dependency）和宽依赖（Wide Dependency）。

定义：在宽依赖中，一个子 RDD 的分区可能依赖于多个父 RDD 的分区。这通常发生在需要对数据进行重新分区或聚合的操作中。
特点：
- 导致了“shuffle”操作，因为每个子分区可能需要从多个父分区读取数据。
- Shuffle 是一个代价较高的操作，涉及到跨节点的数据传输。
- 故障恢复成本高，因为需要重新计算所有相关的父分区。
示例操作：reduceByKey()、groupBy()、join() 等转换操作会产生宽依赖。

在优化 Spark 作业时，理解你的数据转换操作是引入了宽依赖还是窄依赖，有助于你更好地设计数据流程和调度策略，以提高整体的处理效率和可靠性。

关注