Spark07：宽窄依赖、Stage的划分

最新推荐文章于 2024-07-28 16:45:11 发布

小猫不会去楼兰捉虫

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量1k

点赞数

分类专栏： spark 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/anglemanyi/article/details/128841922

版权

spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

一、宽依赖和窄依赖

1. 窄依赖

窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、filter等这些算子。

一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父RDD和子RDD的partition之间的对应关系，是一对一的。

2.宽依赖

宽依赖(Shuffle Dependency)：父RDD的每个分区都可能被子RDD的多个分区使用，例如groupByKey、reduceByKey，sortBykey等算子，这些算子其实都会产生shuffle操作
也就是说，每一个父RDD的partition中的数据都可能会传输一部分到下一个RDD的每个partition中。此时就会出现，父RDD和子RDD的partition之间，具有错综复杂的关系，那么，这种情况就叫做两个RDD之间是宽依赖，同时，他们之间会发生shuffle操作。

以单词计数案例来分析

最左侧是linesRDD，这个表示我们通过textFile读取文件中的数据之后获取的RDD，接着是我们使用flatMap算子，对每一行数据按照空格切开，然后可以获取到第二个RDD，这个RDD中包含的是切开的每一个单词
在这里这两个RDD就属于一个窄依赖，因为父RDD的每个分区只被子RDD的一个分区所使用，也就是说他们的分区是一对一的，这样就不需要经过shuffle了。
接着是使用map算子，将每一个单词转换成(单词,1)这种形式，此时这两个RDD也是一个窄依赖的关系，父RDD的分区和子RDD的分区也是一对一的
最后我们会调用reduceByKey算子，此时会对相同key的数据进行分组，分到一个分区里面，并且进行聚合操作，此时父RDD的每个分区都可能被子RDD的多个分区使用，那这两个RDD就属于宽依赖了。

二、Stage

spark job是根据action算子触发的,遇到action算子就会起一个job
Spark Job会被划分为多个Stage，每一个Stage是由一组并行的Task组成的

注意：

stage的划分依据就是看是否产生了shuflle(即宽依赖),遇到一个shuffle操作就划分为前后两
个stage。

stage是由一组并行的task组成，stage会将一批task用TaskSet来封装，提交给TaskScheduler进行分配，最后发送到Executor执行

下面来看一张图来具体分析一下

注意：

（1）Stage的划分规则：从后往前，遇到宽依赖就划分Stage

（2）Stage划分是从后往前划分，但是stage执行时从前往后的，这就是为什么后面先切割的
stage为什么编号是3.

字母是RDD，看这个图从后往前推，

（1）RDD G 往前推，到RDD B的时候，是窄依赖，所以不切分Stage，再往前到RDD A，此时产生了宽依赖，所以RDD A属于一个Stage、RDD B 和 G属于一个Stage
（2）再看下面，RDD G到RDD F，产生了宽依赖，所以RDD F属于一个Stage，因为RDD F和 RDD C、D、E 这几个RDD没有产生宽依赖，都是窄依赖，所以他们属于一个Stage。
（3）所以这个图中,RDD A 单独一个stage1,RDD C、D、E、F被划分在stage2中,
最后RDD B和RDD G划分在了stage3 里面.

小猫不会去楼兰捉虫

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark07：宽窄依赖、Stage的划分

也就是说，每一个父RDD的partition中的数据都可能会传输一部分到下一个RDD的每个partition中。一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父RDD和子RDD的partition之间的对应关系，是一对一的。（2）再看下面，RDD G到RDD F，产生了宽依赖，所以RDD F属于一个Stage，因为RDD F和 RDD C、D、E 这几个RDD没有产生宽依赖，都是窄依赖，所以他们属于一个Stage。
复制链接

扫一扫