hadoop combine 使用场景

最新推荐文章于 2022-04-06 15:17:57 发布

benbendy1984

最新推荐文章于 2022-04-06 15:17:57 发布

阅读量4.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/benbendy1984/article/details/30069875

版权

hadoop中的combine函数，本质上是一个本地的reducer。其设计初衷是在本地将需要reduce操作的数据就行合并，以减少不必要的通信代价，combine可以提高hadoop的运行性能。

因为combine的输入是map的输出，combine的输出是reduce的输入，而map的输出和reduce的输出是一致的，所以，我们需要确保combine的输入和输出是一样的，另外还要考虑本地的reduce对最终的结果是否有影响，比如wordcount，他在本地做累加对最终的结果是没有影响，可以使用combine；但是计算平均数就不行了，主要这个过程有信息的丢失。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop combine 使用场景

hadoop中的combine函数，本质上是一个本地的reducer。其设计初衷是在本地将需要reduce操作的数据就行合并，以减少不必要的通信代价，combine可以提高hadoop的运行性能。但值得注意的是，并不是所有的mapreduce程序都可以将reduce过程移植到本地进行combine，这需要在逻辑上考虑这种移植是否可行！要想进行本地reduce
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。