Spark之RDD内核原理，RDD的依赖关系，宽窄依赖的算子，DAG有向无环图

凡梦_leo

于 2024-10-10 21:00:26 发布

阅读量354

点赞数 4

分类专栏： python 大数据文章标签： spark 大数据分布式数据库 pandas python 数据仓库

本文链接：https://blog.csdn.net/qq_55006020/article/details/142831836

版权

大数据同时被 2 个专栏收录

25 篇文章 0 订阅

订阅专栏

python

20 篇文章 0 订阅

订阅专栏

学习：知识的初次邂逅
复习：知识的温故知新
练习：知识的实践应用

在 Spark 中，RDD（Resilient Distributed Dataset，弹性分布式数据集）之间存在依赖关系，以下是关于依赖的定义、依赖的算子以及 DAG（有向无环图）的介绍：

rdd之间是有依赖关系

窄依赖：每一个父RDD的一个分区最多被子RDD的一个分区所使用
宽依赖：一个父RDD的分区会被多个子RDD的分区使用

一、依赖的定义

RDD 的依赖是指一个 RDD 对另一个 RDD 的依赖关系。当一个 RDD 的计算依赖于另一个 RDD 的计算结果时，就说这两个 RDD 之间存在依赖关系。

依赖关系分为两种类型：窄依赖和宽依赖。

1，窄依赖（Narrow Dependency）：

窄依赖是指父 RDD 的每个分区最多被一个子 RDD 的分区使用。
例如，map、filter、union 等算子产生的 RDD 之间的依赖关系通常是窄依赖。
窄依赖的特点是可以在单个节点上进行计算，不需要进行数据的 shuffle（数据混洗）操作，因此计算效率较高。

2，宽依赖（Shuffle Dependency）：

宽依赖是指父 RDD 的每个分区都可能被多个子 RDD 的分区使用。
例如，groupByKey、reduceByKey、join 等算子产生的 RDD 之间的依赖关系通常是宽依赖。
宽依赖的特点是需要进行数据的 shuffle 操作，将数据从一个节点传输到另一个节点，因此计算效率相对较低。

二、依赖的算子

以下是一些常见的产生依赖关系的算子：

1，窄依赖算子：

map：对 RDD 中的每个元素进行映射操作，生成一个新的 RDD。
filter：对 RDD 中的元素进行过滤操作，生成一个新的 RDD。
flatMap：对 RDD 中的每个元素进行映射操作，将结果扁平化后生成一个新的 RDD。
union：将两个 RDD 合并成一个新的 RDD。

2，宽依赖算子：

groupByKey：将 RDD 中的元素按照键进行分组，生成一个新的（K，Iterable<V>）类型的 RDD。
reduceByKey：对 RDD 中的元素按照键进行聚合操作，生成一个新的（K，V）类型的 RDD。
join：将两个 RDD 按照键进行连接操作，生成一个新的（K，（V，W））类型的 RDD。
sortByKey:排序

三、DAG 有向无环图

DAG 管理维护rdd之间依赖关系，保证代码的执行顺序，

DAG会根据依赖关系划分stage,每个stage都是一个独立的计算步骤，当发生宽依赖时，会单独拆分一个计算步骤（stage），进行相关数据计算，可以保证每个单独的stage可以并行执行

在发生宽依赖进行shuffle时，会独立的方法执行shuffle计算

拆分计算步骤的本质是为了保证数据计算的并行执行

查看spark的计算过程，通过DAG判断算子是宽依赖还是窄依赖

拆分了计算stage是宽依赖，没有拆分是窄依赖

启动spark的历史日志

start-history-server.sh