RDD依赖关系

最新推荐文章于 2023-02-03 11:13:28 发布

未来影子

最新推荐文章于 2023-02-03 11:13:28 发布

阅读量1.1k

点赞数

分类专栏： Spark 文章标签： big data 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mynameisgt/article/details/123364842

版权

Spark 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1）RDD血缘关系

RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

命令：toDebugString

2）RDD依赖关系

两个相邻RDD之间的关系

3）RDD窄依赖

窄依赖表示每一个父（上游）RDD的Partition最多被子（下游）RDD的一个Partition使用。

窄依赖可以形象的比喻为独生子女

4）RDD宽依赖

宽依赖表示同一个父（上游）RDD的Partition被多个子（下游）RDD的Partition依赖，会引起Shuffle，总结：宽依赖我们形象的比喻为多生。

5）RDD阶段划分

DAG(Directed Acyclic Graph)有向无环图是由点和线组成的拓扑图像，该图像具有方向，不会闭环。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2NpS6Daw-1646749055511)(C:\Users\Admin\AppData\Roaming\Typora\typora-user-images\image-20220305222043633.png)]$

6）RDD任务划分

RDD任务切分中间分为：Application、Job、Stage和Task

Application：初始化一个SparkContext，即生成一个Application
Job：一个Action算子就会生成一个Job
Stage：Stage等于宽依赖（ShuffleDependency）的个数加1
Task：一个Stage阶段中，最后一个RDD的分区个数就是Task的个数

注意：Application =》Job =》Stage =》Task 每一层都是1对n的关系

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RDD依赖关系

1）RDD血缘关系RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。命令：toDebugString2）RDD依赖关系两个相邻RDD之间的关系3）RDD窄依赖窄依赖表示每一个父（上游）RDD的Partition最多被子（下游）RDD的一个Partition使用。窄依赖可以形象的比喻
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。