Map/Reduce中的Combiner的使用

最新推荐文章于 2023-10-16 22:07:05 发布

dajuezhao

最新推荐文章于 2023-10-16 22:07:05 发布

阅读量2.4k

点赞数

分类专栏： Hadoop 文章标签： list hadoop

本文链接：https://blog.csdn.net/dajuezhao/article/details/5790528

版权

Hadoop 专栏收录该内容

38 篇文章 1 订阅

订阅专栏

一、作用

1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：

map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)

2、combiner还具有类似本地的reduce功能.

例如hadoop自带的wordcount的例子和找出value的最大值的程序，combiner和reduce完全一致。如下所示：
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K3, V3)
reduce: (K3, list(V3)) → list(K4, V4)
3、如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。

4、对于hadoop自带的wordcount的例子，value就是一个叠加的数字，所以map一结束就可以进行reduce的value叠加，而不必要等到所有的map结束再去进行reduce的value叠加。

二、总结