Spark算子-面试问题一：groupByKey、reduceByKey的区别?

最新推荐文章于 2024-02-21 11:31:29 发布

瑾明达2号

最新推荐文章于 2024-02-21 11:31:29 发布

阅读量238

点赞数

分类专栏： spark 文章标签： spark

原文链接：https://zhuanlan.zhihu.com/p/370857623

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

转载自知乎：https://zhuanlan.zhihu.com/p/370857623

1、原理层面的区别

groupByKey 不会在map端进行combine，而reduceByKey 会在map端的默认开启combine进行本地聚合。

在map端先进行一次聚合，很极大的减小reduce端的压力，一般来说，map的机器数量是远大于reduce的机器数量的。通过map聚合的方式可以把计算压力平均到各台机器，最终在reduce端只需要汇总map端聚合完成的数据即可，极大的提高效率。

看图如下：

reduceByKey

2、实战层面

主要说一下，自己在什么场景下使用groupByKey，使用的时候造成了什么问题，然后换到reduceByKey之后效率提升多少。

比如：（具体时间自己找一批数据跑一波就可以得出结论，根据实际跑的时间和数据量描述即可）

groupByKey 在计算每个用户请求次数的时候（数据量级30亿，用户量级3亿），使用groupByKey运行1个小时（甚至执行失败，reduce机器报内存溢出），换用reduceByKey之后，很好的解决了这个问题，从之前的1小时，缩短到了10分钟。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark算子-面试问题一：groupByKey、reduceByKey的区别?

1、原理层面的区别groupByKey 不会在map端进行combine，而reduceByKey 会在map端的默认开启combine进行本地聚合。在map端先进行一次聚合，很极大的减小reduce端的压力，一般来说，map的机器数量是远大于reduce的机器数量的。通过map聚合的方式可以把计算压力平均到各台机器，最终在reduce端只需要汇总map端聚合完成的数据即可，极大的提高效率。看图如下：...
复制链接

扫一扫

专栏目录

瑾明达2号 CSDN认证博客专家 CSDN认证企业博客

码龄6年

112: 原创

7万+: 周排名

119万+: 总排名

11万+: 访问

: 等级

1534: 积分

20: 粉丝

39: 获赞

24: 评论

188: 收藏

私信

关注

热门文章

分类专栏

机器学习 15篇
scala 2篇
tensorflow1 9篇
leetcode 8篇
pyhon 16篇
算法题 8篇
shell 2篇
spark 9篇
Linux操作系统 13篇
del 1篇
home 1篇
end 1篇
hadoop 1篇
obs 1篇
百面机器学习 12篇
Unix操作系统 5篇
Leetcode数组 14篇
go 1篇
beego 8篇
软件工具 3篇
软件安装教程 5篇

最新评论

推荐系统常用名词
CSDN-Ada助手: 非常感谢CSDN博主分享的《推荐系统常用名词》这篇博客，我觉得对于想了解推荐系统的读者来说非常有用。如果下一篇博客可以继续深入探讨推荐算法的实现原理，比如基于协同过滤的推荐算法，或者基于深度学习的推荐算法，相信会受到更多读者的欢迎和关注。期待你的下一篇精彩分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
《统计学习方法》C++实现kd tree
juebai123: 你写的非常好，可惜查找是错误的，看下面：找点 -108,0,8.44013 的邻居最近的邻居是: -34,-41,9 --------------验证------------------- -26,-41,9, d:91.680496 -34,-41,9, d:84.600906 -33,-41,9, d:85.476974 -31,-41,9, d:87.237114 -37,-40,9, d:81.494255 -36,-40,9, d:82.366943 -35,-40,9, d:83.242500 -30,-41,9, d:88.121017 -28,-41,9, d:89.896126 -27,-41,9, d:90.787186 60,-41,9, d:172.931519 61,-41,9, d:173.903168 64,-41,9, d:176.820007 -26,-40,9, d:91.237679 -25,-40,9, d:92.137474 59,-40,9, d:171.724518 -24,-40,9, d:93.039314 65,-41,9, d:177.792892 66,-41,9, d:178.766083 mind:81.494255 是:{-37.00,-40.00,9.00}
CPU / GPU串行/并行翻转图片（一）
凶萌的小老虎: 这篇博客的意义何在？要理论没理论，要程序没程序
HDFS查看文件的前几行-后几行-行数
克念: 这里有个问题，就是对于大文件性能会很差。因为其实每个命令都是遍历了整个文件的，并没有根据文件的指针只读取固定的行。
Linux下进程间通信方式——pipe（管道）
LL20160016: 编译不能通过头文件有错误 c程序就不要用cpp的头文件而且const参数不能传非const值

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。