Spark中RDD的依赖和DAG的生成

大大大大肉包

已于 2022-04-29 10:04:43 修改

阅读量1.4k

点赞数

分类专栏： spark学习文章标签： spark big data hadoop

于 2022-04-28 19:00:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42456324/article/details/124480968

版权

spark学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

1、RDD之间的依赖类型

窄依赖(NorrawDependency)

父RDD的一个分区的数据,是给到子rdd的一个分区使用,这种依赖关系就是窄依赖。窄依赖指的是父RDD的一个分区,被子RDD的一个分区所依赖(一对一)。

map,flatMap,filter 都是窄依赖,union 也是窄依赖。

分为宽依赖(WideDependency)

父RDD的一个分区的数据,是给到子rdd的多个分区使用,那么就是宽依赖。

一旦有宽依赖,在这里会发生数据的shuffle,会切分stage(阶段)。

sortBy,reduceByKey,aggregate都是宽依赖

注意:

某些特殊的算子如join,默认情况下,是宽依赖。但是在特殊情况下,join是一个窄依赖。

俩个条件:1分区数量一致 2根据key的reduceByKey或groupBykey等算子计算后进行join。

join得到的分区数量,以左右两边rdd的分区数量的最大值为准。

2、DAG的生成

DAG：有向无环图。

方向：RDD的依赖关系，有父子关系。

无环：从读取hdfs开始，到写入到hdfs上，没有闭环。

图：点+边

点：RDD

边：表示rdd的依赖关系

stage的划分：

Spark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分stage的依据就是RDD之间的宽窄依赖。遇到一个宽依赖就划分一个stage,每个stage包含一个或多个task任务。然后将这些task以taskSet的形式提交给TaskScheduler运行。
stage的个数=宽依赖的个数+1

注意：

stage中的并行度由一个Stage中finalRDD(最后一个RDD)中的partition的个数决定。

大大大大肉包

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark中RDD的依赖和DAG的生成

1、RDD之间的依赖类型窄依赖(NorrawDependency)父RDD的一个分区的数据,是给到子rdd的一个分区使用,这种依赖关系就是窄依赖。窄依赖指的是父RDD的一个分区,被子RDD的一个分区所依赖(一对一)。map,flatMap,filter 都是窄依赖,union 也是窄依赖。分为宽依赖(WideDependency)父RDD的一个分区的数据,是给到子rdd的多个分区使用,那么就是宽依赖。一旦有宽依赖,在这里会发生数据的shuffle,会切分stage(阶段)。sor
复制链接

扫一扫

专栏目录

大大大大肉包 CSDN认证博客专家 CSDN认证企业博客

码龄6年

161: 原创

3万+: 周排名

1万+: 总排名

27万+: 访问

: 等级

2157: 积分

360: 粉丝

332: 获赞

26: 评论

798: 收藏

私信

关注

热门文章

分类专栏

flink 25篇
八股系列 4篇
spark学习 10篇
大数据概念 2篇
redis 7篇
SQL案例 1篇
zk学习 4篇
Elasticsearch 7篇
kafka学习 6篇
hive学习 25篇
git学习 1篇
数据安全 2篇
linux学习 2篇
HBase 5篇
java学习 6篇
clickhouse 3篇
yarn学习 1篇
HDFS学习 3篇
优化 1篇
数据库 2篇
stark 1篇
scala学习 2篇
queue 1篇
array 1篇
letcode 2篇

最新评论

八股文系列Spark
喻师傅: 总结的挺好呀，受教了。
八股文系列Redis
征途黯然.: 这篇关于八股文系列Redis的文章真的很有深度，很出色。
Flink中的时间和窗口
敲开天才的脑壳: 啊，明白了，感谢解惑！
Flink中的时间和窗口
大大大大肉包: 乱序数据是正常的，这个图只演示水位线的插入
Flink中的时间和窗口
敲开天才的脑壳: 博主文章中第3个图这里是不是不对，17低于水位线22怎么也过来了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。