Spark大数据处理讲课笔记3.4 理解RDD依赖

最新推荐文章于 2024-04-23 08:13:30 发布

ting_tu_ran_de

最新推荐文章于 2024-04-23 08:13:30 发布

阅读量175

点赞数

文章标签： spark 笔记大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ting_tu_ran_de/article/details/130551828

版权

本文详细介绍了Spark中RDD的依赖类型，包括窄依赖和宽依赖。窄依赖如map、filter和union，数据丢失时只需重算对应父RDD分区；宽依赖如groupByKey、join（未协同划分），数据丢失需重算所有父RDD分区。窄依赖在容错性和效率上优于宽依赖，而Shuffle过程在宽依赖中尤为显著，涉及资源消耗较大的数据混洗操作。

摘要由CSDN通过智能技术生成

一、RDD依赖

在Spark中，对RDD的每一次转化操作都会生成一个新的RDD，由于RDD的懒加载特性，新的RDD会依赖原有RDD，因此RDD之间存在类似流水线的前后依赖关系。这种依赖关系分为两种：窄依赖和宽依赖。

二、窄依赖
窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用，即OneToOneDependencies。窄依赖的表现一般分为两类，第一类表现为一个父RDD的分区对应于一个子RDD的分区；第二类表现为多个父RDD的分区对应于一个子RDD的分区。一个父RDD的一个分区不可能对应一个子RDD的多个分区。为了便于理解，我们通常把窄依赖形象地比喻为独生子女。
RDD做map、filter和union算子操作时，是属于窄依赖的第一类表现；而RDD做join算子操作（对输入进行协同划分）时，是属于窄依赖表现的第二类。输入协同划分是指多个父RDD的某一个分区的所有Key，被划分到子RDD的同一分区。当子RDD做算子操作，因为某个分区操作失败导致数据丢失时，只需要重新对父RDD中对应的分区做算子操作即可恢复数据。
（一）map()与filter()算子
一对一的依赖

（二）union()算子

一对一的依赖</

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark大数据处理讲课笔记3.4 理解RDD依赖

懒加载特性二、窄依赖窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用，即OneToOneDependencies。窄依赖的表现一般分为两类，第一类表现为一个父RDD的分区对应于一个子RDD的分区；第二类表现为多个父RDD的分区对应于一个子RDD的分区。一个父RDD的一个分区不可能对应一个子RDD的多个分区。为了便于理解，我们通常把窄依赖形象地比喻为独生子女。RDD做map、filter和union算子操作时，是属于窄依赖的第一类表现；
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。