hadoop的mapreduce编程模型中GroupingComparator的使用

在hadoop的mapreduce编程模型中,当在map端处理完成输出key-value对时,reduce端只会将key相同的到同一个reduce函数中去执行,如果现在map端输出的key是一个对像TextPair,,那这样每个map端到reduce都会变成如下形式(因为每个对象都不一样):

<textPair01,1>
<textPair02,1>
<textPair03,1>
<textPair04,1>
...

但是我们有个需求,该对象包含两个整型成员变量first和second,需要把map端输出的textPair中如果first相同,就让这个键值对和其他的对象一起到reduce函数中,如果textPair01中first=1,textPair02中first=1,textPair03中first=2,textPair04中first=1,那么textPair01,textPair02,textPair04
就会被同一个reduce函数处理:

<group(textPair01,textPair02,textPair04),1 1 1>

可以使用hadoop中的GroupingComparator对其进行分组,先要定义一个类继承WritableComparator:

package com.lijie.joinreduce;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class GroupComparator extends WritableComparator{

    public GroupComparator() {
        super(TextPair.class,true);
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {

        TextPair t1 = (TextPair) a;
        TextPair t2 = (TextPair) b;
        return t1.getFirst().compareTo(t2.getFirst());
    }
}

在主函数中给job添加GroupingComparatorClass:

job.setGroupingComparatorClass(GroupComparator.class);

然后再reduce函数打上断点可以发现,下面的values长度为3,key的值为textPair01,并且当你对values的迭代器执行next()函数后,key的值会变成textPair02,这里是因为进入了同一种分区的reduce方法。

reduce( TextPair key, Iterable<Text> values,Reducer<TextPair, Text, Text, Text>.Context context)
  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值