Spark的宽窄依赖

Kazi_1024

已于 2023-02-03 11:01:55 修改

阅读量987

点赞数 3

分类专栏： Spark 文章标签： spark 大数据分布式

于 2022-12-21 14:05:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42322454/article/details/128396161

版权

Spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

宽窄依赖

宽窄依赖描述的是父RDD和子RDD之间的对应关系

依赖关系

在这里插入图片描述
RDD会不断进行转换处理，得到新的RDD

每个RDD之间就产生了依赖关系

窄依赖

定义：父RDD的一个分区的数据给子RDD的一个分区(不需要调用Shuffle的分区器）

一个Stage内部的计算都是窄依赖的过程，全部在内存中完成

特点：

一对一或者多对一
不经过Shuffle，性能相对较快
无法实现全局分区、排序和分组等

示例：

在这里插入图片描述

宽依赖

定义：父RDD的一个分区数据给子RDD的多个分区（需要调用Shuffle的分区器来实现）

Spark的job中按照宽依赖来划分Stage

特点：

一对多
必须经过Shuffle，性能相对较慢
可以实现全局分区、排序和分组

示例：

在这里插入图片描述

【了解】为什么要设计宽窄依赖

提高数据容错的性能，避免分区数据丢失时，需要重新构建整个RDD

场景：如果子RDD的某个分区的数据丢失
- 无标记：不清楚父RDD与子RDD数据之间的关系，必须重新构建整个父RDD所有数据
- 有标记：父RDD一个分区只对应子RDD的一个分区，按照对应关系恢复父RDD的对应分区即可

提高数据转换的性能，将连续窄依赖操作使用同一个Task都放在内存中直接转换

场景：如果RDD需要多个map、flatMap、filter、reduceByKey、sortByKey等算子的转换操作
- 无标记：每个转换不知道会不会经过Shuffle，都使用不同的Task来完成，每个Task的结果要保存到磁盘
- 有标记：多个连续窄依赖算子放在一个Stage中，共用一套Task在内存中完成所有转换，性能更快

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Kazi_1024 CSDN认证博客专家 CSDN认证企业博客

码龄6年

47: 原创

39万+: 周排名

81万+: 总排名

10万+: 访问

: 等级

850: 积分

58: 粉丝

177: 获赞

43: 评论

337: 收藏

私信

关注

热门文章

分类专栏

Git 2篇
Java 1篇
Linux 7篇
Hive 4篇
Spark 10篇
Hadoop 9篇
面试 6篇
Python 5篇
Vue 4篇
JS 3篇

最新评论

path.join()与path.resolve()区别
May Y D: 看到最后一句眼前一黑，很炸裂的文字
el-dialog嵌套的影响、原因及解决方法
倒装8: 最后一段代码怎么做到内层加了append-to-body却同级显示的
深拷贝和浅拷贝的区别及实现方法
山原旷其盈视: 扩展运算符如果对象里面都是基本类型的话，应该是深拷贝吧，博主看见回复一下，咱们探讨探讨
Shuffle的作用以及MapReduce的Shuffle过程
靓仔写sql: 翻了那么多文章，这边的mapreduce说的听清楚的，不过我还有个疑问就是这个split是按什么切片的呢？
Spark的宽窄依赖
m0_73611990: 你是我的神

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。