MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般,将排序以及Map的输出传输到Reduce的过程称为混洗(shuffle)。每一个Map都包含一个环形的缓存,默认100M,Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时(阈值默认的大小是缓存的80%),一个后台线程负责将结果写到硬盘,这个过程称为“spill”。Spill过程中,Map仍可以向缓存写入结果,如果缓存已经写满,那么Map进行等待。
Spill的具体过程如下:首先,后台线程根据Reducer的个数将输出结果进行分组,每一个分组对应一个Reducer。其次,对于每一个分组后台线程对输出结果的Key进行排序。在排序过程中,如果有Combiner函数,则对排序结果进行Combiner函数进行调用。每一次spill都会在硬盘产生一个spill文件。因此,一个Map task有可能会产生多个spill文件,当Map写出最后一个输出时,会将所有的spill文件进行合并与排序,输出最终的结果文件。在这个过程中Combiner函数仍然会被调用。从整个过程来看,Combiner函数的调用次数是不确定的。
Hadoop是如何进行排序的呢?根据笔者的理解,MapReduce的排序过程分为两个步骤,一个按照Key进行排序;一个是按照Key进行分组。这两部分分别由SortComparator和GroupingComparator来完成。具体的配置如下面黑体所示:
job.setPartitionerClass(FirstPartitioner.class);
job.setSortComparatorClass(KeyComparator.class);
job.setGroupingComparatorClass(GroupComparator.class);
如果用户想自定义排序方式,首先需要实现两个Comparator并将其按照上面的格式进行配置。每一个Comparator需要继承WritableComparator基类。如下所示:
public static class GroupComparator extends WritableComparator {
protected GroupComparator() {
super(IntPair.class, true);
}
@Override
public int compare(WritableComparable w1, WritableComparable w2) {
IntPair ip1 = (IntPair) w1;
IntPair ip2 = (IntPair) w2;
return IntPair.compare(ip1.getFirst(), ip2.getFirst());
}
}
在hadoop的mapreduce编程模型中,当在map端处理完成输出key-value对时,reduce端只会将key相同的到同一个reduce函数中去执行,如果现在map端输出的key是一个对像TextPair,,那这样每个map端到reduce都会变成如下形式(因为每个对象都不一样):
<textPair01,1>
<textPair02,1>
<textPair03,1>
<textPair04,1>
...
- 1
- 2
- 3
- 4
- 5
但是我们有个需求,该对象包含两个整型成员变量first和second,需要把map端输出的textPair中如果first相同,就让这个键值对和其他的对象一起到reduce函数中,如果textPair01中first=1,textPair02中first=1,textPair03中first=2,textPair04中first=1,那么textPair01,textPair02,textPair04
就会被同一个reduce函数处理:
<group(textPair01,textPair02,textPair04),1 1 1>
- 1
可以使用hadoop中的GroupingComparator对其进行分组,先要定义一个类继承WritableComparator:
package com.lijie.joinreduce;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;
public class GroupComparator extends WritableComparator{
public GroupComparator() {
super(TextPair.class,true);
}
@Override
public int compare(WritableComparable a, WritableComparable b) {
TextPair t1 = (TextPair) a;
TextPair t2 = (TextPair) b;
return t1.getFirst().compareTo(t2.getFirst());
}
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
在主函数中给job添加GroupingComparatorClass:
job.setGroupingComparatorClass(GroupComparator.class);
- 1
然后再reduce函数打上断点可以发现,下面的values长度为3,key的值为textPair01,并且当你对values的迭代器执行next()函数后,key的值会变成textPair02,这里是因为进入了同一种分区的reduce方法。
reduce( TextPair key, Iterable<Text> values,Reducer<TextPair, Text, Text, Text>.Context context)
- 1