Spark RDD的窄依赖和宽依赖

最新推荐文章于 2020-10-18 14:16:05 发布

番茄炒蛋213

最新推荐文章于 2020-10-18 14:16:05 发布

阅读量475

点赞数 1

分类专栏： Spark 宽依赖窄依赖文章标签： Spark 依赖关系宽依赖与窄依赖

本文链接：https://blog.csdn.net/mcdull213/article/details/105905765

版权

Spark 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

宽依赖窄依赖

1 篇文章 0 订阅

订阅专栏

前言

RDD的五大特性之一就是RDD之间有依赖关系，描述了RDD如何从源头计算过来的。

这样可以做到容错，如果某一个RDD分区出现错误，可以根据依赖关系重新计算相关的分区，而不需要全部重新计算。

如果链路关系太长，可以checkpoint下来

本文主要介绍下窄依赖和宽依赖

一、窄依赖

一个父RDD的分区至多被子RDD的某个分区使用一次

1）一个父RDD和一个子RDD的分区是唯一映射的例如map filter

2）多个父RDD和一个子RDD的分区是唯一映射的例如union

3）特殊的join 没有shuffle

二、宽依赖

一个父RDD的分区会被子RDD的分区使用多次

例如join、groupByKey、reduceByKey、...ByKey 有shuffle、产生新的stage

三、使用WC演示窄依赖、宽依赖

代码

val lines = sc.parallelize(Array("hello,spark", "hello,flink", "hello,hadoop"))
val words = lines.flatMap(_.split(","))
val pair = words.map((_, 1))
val wc = pair.reduceByKey(_ + _)
wc.collect()

DAG图

四、窄依赖中的join

其实宽窄依赖通过以上的例子已经了解的差不多了。

下面来介绍其中的一个特例：窄依赖中的join

join的俩哥们是宽依赖(存在shuffle)，分区数相同，join后的分区数也相同，则为窄依赖

    val rdd1 = sc.parallelize(Array("zs", "ls", "ww"), 2).map((_, 1)).reduceByKey(_ + _)
    val rdd2 = sc.parallelize(Array("hz", "sh", "bj","gz"), 2).map((_, 1)).reduceByKey(_ + _)
    rdd1.join(rdd2,2).collect()

五、总结

窄依赖：父类只有一个孩子，不存在shuffle，例如map、filter

宽依赖：父类有多个孩子，存在shuffle，例如groupByKey、reduceByKey

需要注意的是：join的俩哥们如果是宽依赖(存在shuffle)，并且分区数量相同，join后的结果也相同，则为窄依赖，其他情况的join为宽依赖。

在业务中，为了方便容错回溯，尽量少使用宽依赖。

番茄炒蛋213

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD的窄依赖和宽依赖

前言RDD的五大特性之一就是RDD之间有依赖关系，描述了RDD如何从源头计算过来的。这样可以做到容错，如果某一个RDD分区出现错误，可以根据依赖关系重新计算相关的分区，而不需要全部重新计算。如果链路关系太长，可以checkpoint下来本文主要介绍下窄依赖和宽依赖一、窄依赖一个父RDD的分区至多被子RDD的某个分区使用一次1）一个父RDD和一个子RDD的分区是唯一映射的...
复制链接

扫一扫

专栏目录