MapReduce--Combiner

MapReduce框架是使用Mapper将数据处理成一个<key,value>键值对,网络节点间进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。

1.性能瓶颈:
(1)Map与Reduce之间的网络带宽
(2)reduce上的负载均衡
2.目标:
combiner是为了避免map任务和reduce任务之间的数据传输而设置的,hadoop允许用户对map task的输出制定一个合并函数。即为了减少传输到reduce上的数据量。主要为了削减Mapper的输出从而减少网络带宽和reduce负载。
3.数据格式转换:

    map: (K1, V1) → list(K2,V2) 
    combine: (K2, list(V2)) → list(K3, V3) 
    reduce: (K3, list(V3)) → list(K4, V4)   

4)
combine的输入和reduce的完全一致,输出和map的完全一致。
4.注意说明
1)combiner和map的输出数据合并不是相同一个过程,map输出的数据合并是发生在spill之后,merger操作。
2)combiner是默认实现的,也需要在Configuration中显示设置才有作用。
3)combiner不一定使用所有mapreduce的job,必须满足结合律。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值