宽依赖和窄依赖_Spark宽依赖和窄依赖深度剖析

最新推荐文章于 2022-06-27 14:13:54 发布

CA-91766

最新推荐文章于 2022-06-27 14:13:54 发布

阅读量611

点赞数

文章标签：宽依赖和窄依赖

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33514163/article/details/112823074

版权

本文深入剖析了Spark中的宽依赖和窄依赖概念，它们决定了RDD的计算方式和Stage划分。窄依赖允许在同一Executor上顺序执行命令，易于恢复且能并行计算。宽依赖则需要所有父分区数据准备就绪，通常涉及shuffle操作，导致计算分为两个Stage执行。Spark通过DAG调度系统根据依赖关系划分Stage，确保计算的高效性和容错性。

摘要由CSDN通过智能技术生成

宽依赖和窄依赖深度剖析.png

RDD依赖关系与stage划分

Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系。

1. 窄依赖与宽依赖

针对不同的转换函数，RDD之间的依赖关系分为窄依赖(narrow dependency)和宽依赖(wide dependency，也成shuffle dependency)。

1.1 窄依赖

窄依赖是指1个父RDD分区对应1个子RDD的分区。换句话说，一个父RDD的分区对应于一个子RDD的分区，或者多个父RDD的分区对应于一个子RDD的分区。所以窄依赖又可以分为两种情况：

1个子RDD的分区对应于1个父RDD的分区，比如map，filter，union等算子

1个子RDD的分区对应于N个父RDD的分区，比如co-partioned join

1.2 宽依赖

宽依赖是指1个父RDD分区对应多个子RDD分区。宽依赖有分为两种情况

1个父RDD对应非全部多个子RDD分区，比如groupByKey，reduceByKey，sortByKey

1个父RDD对应所有子RDD分区，比如未经协同划分的join

窄依赖与宽依赖.png

总结：如果父RDD分区对应1个子RDD的分区就是窄依赖，否则就是宽依赖。

2. 为什么Spark将依赖分为窄依赖和宽依赖

2.1 窄依赖(narrow dependency

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。