Spark RDD 宽依赖&窄依赖

最新推荐文章于 2023-11-04 00:37:06 发布

栗子呀！

最新推荐文章于 2023-11-04 00:37:06 发布

阅读量1.1k

点赞数

分类专栏：大数据Spark专栏文章标签： spark 大数据 hadoop

本文链接：https://blog.csdn.net/qq_43665254/article/details/112642781

版权

大数据Spark专栏专栏收录该内容

17 篇文章 4 订阅

订阅专栏

Spark RDD 宽依赖&窄依赖

1.窄依赖
2.宽依赖:
3.阶段的划分
4.宽依赖和窄依赖的作用:

1.窄依赖

每一个父RDD的Partition最多被子RDD的一个Partition使用（一对一的关系）
常见算子：map flatmap filter union sample 等等

2.宽依赖:

指的是多个子RDD的Partition会依赖同一个父RDD的Partition (一对多的关系)
常见算子：groupByKey reduceByKey sortByKey join 等等

在这里插入图片描述
对于窄依赖的 RDD，可以以流水线的方式计算所有父分区，不会造成网络之间的数据混合。对于宽依赖的 RDD，则通常伴随着 Shuffle 操作，即首先需要计算好所有父分区数据，然后在节点之间进行 Shuffle。因此，在进行数据恢复时，窄依赖只需要根据父 RDD 分区重新计算丢失的分区即可，而且可以并行地在不同节点进行重新计算。而对于宽依赖而言，单个节点失效通常意味着重新计算过程会涉及多个父 RDD 分区，开销较大。此外，Spark 还提供了数据检查点和记录日志，用于持久化中间 RDD，从而使得在进行失败恢复时不需要追溯到最开始的阶段。在进行故障恢复时，Spark 会对数据检查点开销和重新计算 RDD 分区的开销进行比较，从而自动选择最优的恢复策略。

3.阶段的划分

Spark 通过分析各个 RDD 的依赖关系生成了 DAG ，再通过分析各个 RDD 中的分区之间的依赖关系来决定如何划分阶段，具体划分方法是：在 DAG 中进行反向解析，遇到宽依赖就断开，遇到窄依赖就把当前的 RDD 加入到当前的阶段中；将窄依赖尽量划分在同一个阶段中，可以实现流水线计算。例如在下图中，首先根据数据的读取、转化和行为等操作生成 DAG。然后在执行行为操作时，反向解析 DAG，由于从 A 到 B 的转换和从 B、F 到 G 的转换都属于宽依赖，则需要从在宽依赖处进行断开，从而划分为三个阶段。把一个 DAG 图划分成多个 “阶段” 以后，每个阶段都代表了一组关联的、相互之间没有 Shuffle 依赖关系的任务组成的任务集合。每个任务集合会被提交给任务调度器（TaskScheduler）进行处理，由任务调度器将任务分发给 Executor 运行。
在这里插入图片描述
DAG：表示整个Spark的执行流程
spark中划分stage通过宽依赖进行的，遇见宽依赖就切分，每个stage内部能多地包含一组具有窄依赖关系的转换，并将它们流水线并行化

4.宽依赖和窄依赖的作用:

1、stage划分
2、容错（针对复杂业务逻辑，当执行到宽依赖的时候，进行适当的cache,担心任务异常结束，数据重跑）
3、代码优化

栗子呀！

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD 宽依赖&窄依赖

Spark RDD 宽依赖&窄依赖1.窄依赖2.宽依赖:3.阶段的划分4.宽依赖和窄依赖的作用:1.窄依赖每一个父RDD的Partition最多被子RDD的一个Partition使用（一对一的关系）常见算子：map flatmap filter union sample 等等2.宽依赖:指的是多个子RDD的Partition会依赖同一个父RDD的Partition (一对多的关系)常见算子：groupByKey reduceByKey sortByKey join 等等对于窄依赖的
复制链接

扫一扫

专栏目录