Spark中narrow dependency和wide dependency

最新推荐文章于 2022-09-20 13:18:44 发布

weixin_34085658

最新推荐文章于 2022-09-20 13:18:44 发布

阅读量576

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/hosee/blog/633096

版权

为什么80%的码农都做不了架构师？>>>

根据不同的transformation操作，RDD的依赖可以分为窄依赖（Narrow Dependency）和宽依赖（Wide Dependency，在代码中为ShuffleDependency）两种类型。

窄依赖指的是生成的RDD中每个partition只依赖于父RDD(s)固定的partition。

宽依赖指的是生成的RDD的每一个partition都依赖于父 RDD(s)所有partition。

窄依赖典型的操作有map, filter, union（特殊）等

宽依赖典型的操作有groupByKey, sortByKey等。

窄依赖的第一个作用,我的理解是可以不用等上一次操作全部做完，每完成一条记录就可以进行下次操作，如map产生一条新纪录马上就做filter

那么对于宽依赖，不能顺序执行，比如groupByKey操作。它需要等所有的计算map,filter都做完，才能做ByKey的计算。
另外，union这个必须要重点提一下。这个操作只能说不一定，记住：不一定。为什么这么说呢。。因为如果你的计算非常少，最后只有一个DAG在计算，那它就是narrow。。。如果是多个DAG，那此时必然是wide,必然要做shuffle。

可以看到，宽依赖往往意味着shuffle操作，这也是Spark划分stage（任务集）的主要边界。对于窄依赖，Spark会将其尽量划分在同一个stage中，因为它们可以进行流水线计算。

计算方面：

上图详细解释一下Spark中的Stage划分。我们从HDFS中读入数据生成3个不同的RDD，通过一系列 transformation操作后再将计算结果保存回HDFS。可以看到这幅DAG中只有join操作是一个宽依赖，Spark内核会以此为边界将其前后划分成不同的Stage. 同时我们可以注意到，在图中Stage2中，从map到union都是窄依赖，这两步操作可以形成一个流水线操作，通过map操作生成的 partition可以不用等待整个RDD计算结束，而是继续进行union操作，这样大大提高了计算的效率。

而Hadoop的MapReduce更像是宽依赖，所以Spark引入了窄依赖大大提高了计算速度。