关闭

MapReduce--Combiner

标签: mapreducehadoop负载均衡数据
253人阅读 评论(0) 收藏 举报
分类:
MapReduce框架是使用Mapper将数据处理成一个<key,value>键值对,网络节点间进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。

1.性能瓶颈:
(1)Map与Reduce之间的网络带宽
(2)reduce上的负载均衡
2.目标:
combiner是为了避免map任务和reduce任务之间的数据传输而设置的,hadoop允许用户对map task的输出制定一个合并函数。即为了减少传输到reduce上的数据量。主要为了削减Mapper的输出从而减少网络带宽和reduce负载。
3.数据格式转换:

    map: (K1, V1) → list(K2,V2) 
    combine: (K2, list(V2)) → list(K3, V3) 
    reduce: (K3, list(V3)) → list(K4, V4)   

4)
combine的输入和reduce的完全一致,输出和map的完全一致。
4.注意说明
1)combiner和map的输出数据合并不是相同一个过程,map输出的数据合并是发生在spill之后,merger操作。
2)combiner是默认实现的,也需要在Configuration中显示设置才有作用。
3)combiner不一定使用所有mapreduce的job,必须满足结合律。

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:5277次
    • 积分:104
    • 等级:
    • 排名:千里之外
    • 原创:4篇
    • 转载:0篇
    • 译文:1篇
    • 评论:4条
    文章分类
    文章存档
    最新评论