在hadoop的mapreduce编程模型中,当在map端处理完成输出key-value对时,reduce端只会将key相同的到同一个reduce函数中去执行,如果现在map端输出的key是一个对像TextPair,,那这样每个map端到reduce都会变成如下形式(因为每个对象都不一样):
<textPair01,1>
<textPair02,1>
<textPair03,1>
<textPair04,1>
...
但是我们有个需求,该对象包含两个整型成员变量first和second,需要把map端输出的textPair中如果first相同,就让这个键值对和其他的对象一起到reduce函数中,如果textPair01中first=1,textPair02中first=1,textPair03中first=2,textPair04中first=1,那么textPair01,textPair02,textPair04
就会被同一个reduce函数处理:
<group(textPair01,textPair02,textPair04),1 1 1>
可以使用hadoop中的GroupingComparator对其进行分组,先要定义一个类继承WritableComparator:
package com.lijie.joinreduce;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;
public class GroupComparator extends WritableComparator{
public GroupComparator() {
super(TextPair.class,true);
}
@Override
public int compare(WritableComparable a, WritableComparable b) {
TextPair t1 = (TextPair) a;
TextPair t2 = (TextPair) b;
return t1.getFirst().compareTo(t2.getFirst());
}
}
在主函数中给job添加GroupingComparatorClass:
job.setGroupingComparatorClass(GroupComparator.class);
然后再reduce函数打上断点可以发现,下面的values长度为3,key的值为textPair01,并且当你对values的迭代器执行next()函数后,key的值会变成textPair02,这里是因为进入了同一种分区的reduce方法。
reduce( TextPair key, Iterable<Text> values,Reducer<TextPair, Text, Text, Text>.Context context)