reduceByKey和groupByKey性能分析比较

浅谈_

已于 2022-11-18 19:06:10 修改

阅读量1k

点赞数

分类专栏： Spark 文章标签： apache spark

于 2020-05-26 10:23:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangqinyi574110/article/details/106349345

版权

Spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

reduceByKey相较与普通的shuffle操作一个显著的特点就是会进行map端的本地聚合，map端会先在本地的数据进行Combiner操作，然后将数据写入给下一个stage的每个task创建的文件中，也就是在map端，对每一个key对应的value，执行reduceByKey算子函数，reduceByKey算子的执行过程如图所示

使用reduceByKey对性能的提升如下：

本地聚合后，在map端的数据量变少，减少了磁盘IO，也减少了对磁盘空间的占用；
本地聚合后，下一个stage拉取的数据量变少，减少了网络传输的数据量；
本地聚合后，在reduce端进行数据缓存的内存占用减少；
本地聚合后，在reduce端进行聚合的数据量减少。

基于reduceByKey的本地聚合特征，我们应该考虑使用reduceByKey代替其他的shuffle算子，例如groupByKey。reduceByKey与groupByKey的运行原理如图所示：

groupByKey原理

reduceByKey原理

根据上图可知，groupByKey不会进行map端的聚合，而是将所有map端的数据shuffle到reduce端，然后在reduce端进行数据的聚合操作。由于reduceByKey有map端聚合的特性，使得网络传输的数据量减小，因此效率要明显高于groupByKey。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

58
原创

136
点赞

774
收藏

2609
粉丝

关注

私信

热门文章

分类专栏

最新评论

一文搞懂git常用命令
我真想进步: --abbrev-commit 是用于设置在 git log 中显示的提交哈希值的长度的选项。当你使用 --abbrev-commit 时，Git 将只显示提交哈希值的前几个字符，而不是完整的 40 个字符，默认情况下显示7个字符。这样可以节省空间并且更易于阅读。例如，如果你有一个提交哈希值为 1a2b3c4d5e6f7g8h9i0j1k2l3m4n5o6p7q8r9s0t，当使用 --abbrev-commit 参数时，在输出中会将其缩短为类似 1a2b3c4... 的形式。这对于快速查看提交历史和引用特定的提交非常有用。
Azkaban4.0.0最新版的编译与安装
三峡大爸: 三个依赖的版本在build.gradle中修改
《面向对象分析与设计》总结
m0_59492504: 点赞
Azkaban4.0.0最新版的编译与安装
weixin_38387709: 我直接换的azkaban版本
Azkaban4.0.0最新版的编译与安装
烬青靡: 大哥你好，，这玩意怎么解决啊，愁死个人

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。