RDD算子操作会使得RDD分区之间产生不同依赖,主要有两种依赖:宽依赖和窄依赖。
宽依赖:是指一个父RDD的各个分区被一个子RDD的各个分区多次依赖,
窄依赖:是指一个父RDD的各个分区被一个子RDD的各个分区一次依赖,或者多个父RDD的分区对应一个子RDD分区。
如下图所示:
注意:有一些特殊的RDD算子分两种情况,可能是窄依赖也可能是宽依赖,如join算子。
Spark的宽依赖和窄依赖
最新推荐文章于 2024-01-24 13:00:23 发布
RDD算子操作会使得RDD分区之间产生不同依赖,主要有两种依赖:宽依赖和窄依赖。
宽依赖:是指一个父RDD的各个分区被一个子RDD的各个分区多次依赖,
窄依赖:是指一个父RDD的各个分区被一个子RDD的各个分区一次依赖,或者多个父RDD的分区对应一个子RDD分区。
如下图所示:
注意:有一些特殊的RDD算子分两种情况,可能是窄依赖也可能是宽依赖,如join算子。