Spark 的宽依赖和窄依赖

龙大.

于 2024-01-24 13:00:23 发布

阅读量1k

点赞数 13

分类专栏： Spark 文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014745465/article/details/135819451

版权

Spark 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Apache Spark 中的依赖关系指的是转换操作（transformations）之间的依赖类型。这些依赖关系决定了任务是如何在集群上分布执行的。依赖关系分为两类：宽依赖（Wide Dependency）和窄依赖（Narrow Dependency）。

窄依赖（Narrow Dependency）

窄依赖指的是每个父分区最多被一个子分区使用，这意味着子分区的计算只依赖于父RDD的一个分区。因此，在窄依赖中，每个父RDD的分区只需要发送到一个子RDD的分区。

示例

map()
filter()
union()（假设被联合的两个RDD的分区数相同）

在这些操作中，数据不需要在不同节点之间进行混洗（shuffle），可以在单个节点上完成计算，这使得任务的执行更加高效。

宽依赖（Wide Dependency）

宽依赖又称为 Shuffle 依赖，是指子RDD的分区依赖于父RDD的多个分区。这种依赖通常涉及到数据的重新组合和分布，即所谓的“shuffle”操作。在宽依赖中，父RDD的一个分区可能会被多个子RDD的分区所使用，这通常会导致大量的网络传输，增加了任务的处理时间。

示例

groupByKey()
reduceByKey()
join()

这些操作需要将不同分区的数据根据某个键重新进行组合，这通常涉及到跨节点的数据传输，因此它们是宽依赖。

Shuffle 和性能影响

Shuffle 是 Spark 中最耗时的操作之一，因为它涉及到磁盘 I/O、网络 I/O 以及在不同节点之间的数据序列化和反序列化。宽依赖的存在往往意味着一个 Spark 作业的性能可能会受到较大的影响。

Spark 会尝试尽可能地减少 shuffle 的发生，例如，通过 reduceByKey() 在每个节点上先进行本地聚合来减少数据传输量，但在某些操作中，shuffle 是不可避免的。

依赖关系对容错性的影响

依赖类型还影响了 Spark 的容错性。在窄依赖中，如果一个分区失败，只需要重新计算那个分区即可。然而，在宽依赖中，可能需要重新计算多个分区，因为一个分区的数据可能来自父RDD的多个分区。

总结来说，理解宽依赖和窄依赖对于优化 Spark 程序的性能和理解其执行模型至关重要。开发者应当在设计 Spark 应用时考虑如何减少 shuffle 操作，以提高作业的执行效率。

关注

13
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。