RDD的依赖问题与WordCount的原理剖析

最新推荐文章于 2023-02-02 14:20:30 发布

Cym02

最新推荐文章于 2023-02-02 14:20:30 发布

阅读量229

点赞数

分类专栏： Kafka 文章标签： spark 大数据

本文链接：https://blog.csdn.net/gym02/article/details/105370640

版权

Kafka 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

RDD依赖关系决定了Stage拆分

sc
.textFile("hdfs://Spark:9000/words.txt")  // 数据源RDD
.flatMap(_.split(" "))                    // 数据源RDD ---> FlatMap RDD
.map((_,1L))        										  // FlatMap RDD ---> Map RDD
.groupByKey()                             // Map RDD ---> GroupByKey RDD
.map(t2 => (t2._1,t2._2.size))						// GroupByKey RDD ---> Map RDD 
.saveAsTextFile("hdfs://Spark:9000/result2")

通过代码，会发现RDD和RDD之间存在的依赖关系，被称为Lineage（血统或者血缘），
血统关系细分为：窄依赖（Narrow Dependency）和宽依赖（Width Dependency），特点如下：

窄依赖：父RDD的一个分区数据或者多个分区指向子RDD的一个分区（1:1或者N:1）
宽依赖：父RDD的一个分区指向子RDD的多个分区（1：N）

在这里插入图片描述
总结：Spark应用在计算DAG有向无环图时，采用宽窄依赖拆分阶段。窄依赖归属于用一个Stage，宽依赖会立刻拆分Stage。

WordCount应用的原理剖析：

在这里插入图片描述

结论：
1.Spark应用阶段划分依据宽窄依赖，遇到宽依赖会立即划分依赖，而窄依赖归属于同一个阶段。
2.每一个阶段由任务集TaskSet构成，TaskSet中的Task数量取决于当前Stage的分区数量。
3.Stage在划分时会逆向的推导（从最后的FinalRDD开始，反向推导，判断依赖关系是什么）。
4.依次提交阶段（从血缘最顶级向血缘最底依次提交Stage）（类似于递归）。
5.最后一个Stage成为ResultStage，除ResultStage之外的阶段都叫做ShuffleMapStage。

Cym02

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD的依赖问题与WordCount的原理剖析

RDD依赖关系决定了Stage拆分sc.textFile("hdfs://Spark:9000/words.txt") // 数据源RDD.flatMap(_.split(" ")) // 数据源RDD ---> FlatMap RDD.map((_,1L)) // FlatMap RDD ---> ...
复制链接

扫一扫