Spark中划分stage的规则

最新推荐文章于 2022-07-10 23:15:00 发布

小曲童学

最新推荐文章于 2022-07-10 23:15:00 发布

阅读量805

点赞数 4

文章标签：大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42135730/article/details/107671906

版权

RDD操作

转化（Transformation）：泛指接收RDD作为输入，并输出RDD的函数。被划分为窄依赖和宽依赖。
行为（Action）：将RDD转化为非RDD的变量的操作。通常用于返回RDD计算的最终结果。

窄依赖和宽依赖

窄依赖（Narrow Dependencies）：父RDD集的一个分区最多被子RDD集的一个分区所依赖。

常见的有map, flatMap, filter, sample ...

宽依赖（Wide Dependencies）：父RDD集的一个分区可以被子RDD集的多个分区所依赖。

常见的有sortByKey, reduceByKey, groupByKey, join ...

什么是Shuffle

在Spark中，每个任务对应一个分区，通常不会跨分区操作数据。但如果遇到宽依赖的操作，Spark必须从所有分区读取数据，并查找所有键的对应值，然后汇总在一起以计算每个键的最终结果，这称为Shuffle。Shuffle是一项昂贵的操作，因为它通常会跨节点操作数据，这会涉及磁盘 I/O，网络 I/O，和数据序列化。某些Shuffle操作还会消耗大量的堆内存，因为它们使用堆内存来临时存储需要网络传输的数据。

如何划分Stage

言归正传，Stage的划分，是以result和shuffle这两种类型来划分task。对于窄依赖，由于分区依赖关系的确定性，partition的转换处理可以在同一个线程里完成，称之为resultTask。而对于宽依赖，只能等父RDD集的shuffle处理完成后，在下一个stage才能开始接下来的计算，称之为shuffleMapTask。

因此划分Stage的规则如下：从后往前推RDD算子，如果遇到宽依赖就断开，划分为一个stage；如果遇到窄依赖就将这个RDD加入当前的stage。

举个栗子，如下图的Spark任务应该被划分为2个stage。

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark中划分stage的规则

RDD操作转化（Transformation）：泛指接收RDD作为输入，并输出RDD的函数。被划分为窄依赖和宽依赖。行为（Action）：将RDD转化为非RDD的变量的操作。通常用于返回RDD计算的最终结果。窄依赖和宽依赖窄依赖（Narrow Dependencies）：父RDD集的一个分区最多被子RDD集的一个分区所依赖。常见的有map, flatMap, filte...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。