MapReduce--Combiner

最新推荐文章于 2024-09-25 19:44:45 发布

gavin宫

最新推荐文章于 2024-09-25 19:44:45 发布

阅读量582

点赞数

分类专栏： hadoop 文章标签： mapreduce hadoop 负载均衡数据

本文链接：https://blog.csdn.net/gongyunbao/article/details/52366866

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

MapReduce框架是使用Mapper将数据处理成一个<key,value>键值对，网络节点间进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。

1.性能瓶颈：
（1）Map与Reduce之间的网络带宽
（2）reduce上的负载均衡
2.目标：
combiner是为了避免map任务和reduce任务之间的数据传输而设置的，hadoop允许用户对map task的输出制定一个合并函数。即为了减少传输到reduce上的数据量。主要为了削减Mapper的输出从而减少网络带宽和reduce负载。
3.数据格式转换：

    map: (K1, V1) → list(K2,V2) 
    combine: (K2, list(V2)) → list(K3, V3) 
    reduce: (K3, list(V3)) → list(K4, V4)

4)
combine的输入和reduce的完全一致，输出和map的完全一致。
4.注意说明
1）combiner和map的输出数据合并不是相同一个过程，map输出的数据合并是发生在spill之后，merger操作。
2）combiner是默认实现的，也需要在Configuration中显示设置才有作用。
3）combiner不一定使用所有mapreduce的job，必须满足结合律。