Spark Core之RDD依赖关系及血缘

最新推荐文章于 2024-06-22 16:58:41 发布

CyAuroras

最新推荐文章于 2024-06-22 16:58:41 发布

阅读量237

点赞数

分类专栏： # Spark 文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CyAurora/article/details/119649181

版权

Spark 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

目录

一、RDD的依赖关系

二、Lineage(⾎统)&容错性

一、RDD的依赖关系

RDD和它依赖的⽗RDD （ s ）的关系有两种不同的类型，即窄依赖（ narrow dependency ）和宽依赖（ wide dependency）。

注：

使⽤代码 rdd.toDebugString 可打印依赖关系

1.1窄依赖

说明 : ⽗ RDD 的每个分区只被⼀个⼦ RDD 分区使⽤⼀次

窄依赖有分为两种：

1）OneToOneDependency

即是⼀种是⼀对⼀的依赖，

2）RangeDependency

还有⼀个是范围的依赖 RangeDependency ，它仅仅被 org.apache.spark.rdd.UnionRDD 使⽤。 UnionRDD 是把多个RDD 合成⼀个 RDD ，这些 RDD 是被拼接⽽成，每个⽗ RDD 的 Partition 的相对顺序不会变，只不过每个⽗ RDD在 UnionRDD 中的 Partition 的起始位置不同

总结：窄依赖我们形象的比喻为独生子女

算⼦： map 、 flatMap 、 mapPartition 、 filter ， join(特殊) 等

1.2宽依赖

说明:宽依赖指的是多个⼦RDD的Partition会依赖同⼀个⽗RDD的Partition

总结：宽依赖我们形象的⽐喻为超⽣

算⼦： reduceByKey 、 groupBy 、 groupByKey 、 aggregateByKey 、 distinct， join(特殊) 等

查看源码

可以发现⼀个问题 Dependency( 依赖 ) 的意思

可以发现 ShuffleDependency 是其⼦类 ( 即宽依赖 )

NarrowDependency 是其⼦类 ( 即窄依赖 )

OneToOneDependency 继承NarrowDependency

RangeDependency继承NarrowDependency

注 : 宽依赖就会发⽣ shuffle 过程

二、Lineage(⾎统)&容错性

Lineage

RDD只⽀持粗粒度转换，即在⼤量记录上执⾏的单个操作。将创建 RDD 的⼀系列 Lineage （即⾎统）记录下来，以便恢复丢失的分区。RDD 的 Lineage 会记录 RDD 的元数据信息和转换⾏为，当该 RDD 的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

RDD的Lineage记录的是粗颗粒度的特定数据Transformation操作（如filter、map、join等）行为
RDD在Lineage依赖方面分为两种：窄依赖(Narrow Dependencies)与宽依赖(Wide Dependencies。
容错原理：如果一个节点死机了，而且运算窄依赖，则只要把丢失的父RDD分区重算即可，不依赖于其他节点。而宽依赖需要父RDD的所有分区都存在，重算就很昂贵了。【在宽依赖处加Checkpoint更好的方法】

容错性

在Spark的容错机制中，当一个节点宕机了，进行容错恢复时，对于窄依赖来讲，进行重计算时只要把丢失的父RDD分区重算即可，不依赖于其他节点。而对于Shuffle Dependency来说，进行重计算时需要父RDD的分区都存在，这样计算量就太大了比较耗费性能。

比如上图程序运行到红线位置报错了，就不用重新的开头计算，只要从错误的那个点前一个依赖开始计算

注：Action算子的执行会清空血缘关系

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Core之RDD依赖关系及血缘

目录一、RDD的依赖关系1.1窄依赖1.2宽依赖查看源码二、Lineage(⾎统)&容错性Lineage容错性一、RDD的依赖关系RDD和它依赖的⽗RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。注：使⽤代码 rdd.toDebugString 可打印依赖关系1.1窄依赖说明:⽗RDD的每个分区只被⼀个⼦RDD分区使⽤...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。