Hadoop框架排序和分组的理解 GroupingComparator

最新推荐文章于 2022-05-05 15:08:24 发布

吃鱼的羊

最新推荐文章于 2022-05-05 15:08:24 发布

阅读量2.2k

点赞数 2

分类专栏： Hadoop

Hadoop 专栏收录该内容

74 篇文章 1 订阅

订阅专栏

MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般，将排序以及Map的输出传输到Reduce的过程称为混洗（shuffle)。每一个Map都包含一个环形的缓存，默认100M，Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时（阈值默认的大小是缓存的80%），一个后台线程负责将结果写到硬盘，这个过程称为“spill”。Spill过程中，Map仍可以向缓存写入结果，如果缓存已经写满，那么Map进行等待。

Spill的具体过程如下：首先，后台线程根据Reducer的个数将输出结果进行分组，每一个分组对应一个Reducer。其次，对于每一个分组后台线程对输出结果的Key进行排序。在排序过程中，如果有Combiner函数，则对排序结果进行Combiner函数进行调用。每一次spill都会在硬盘产生一个spill文件。因此，一个Map task有可能会产生多个spill文件，当Map写出最后一个输出时，会将所有的spill文件进行合并与排序，输出最终的结果文件。在这个过程中Combiner函数仍然会被调用。从整个过程来看，Combiner函数的调用次数是不确定的。

Hadoop是如何进行排序的呢？根据笔者的理解，MapReduce的排序过程分为两个步骤，一个按照Key进行排序；一个是按照Key进行分组。这两部分分别由SortComparator和GroupingComparator来完成。具体的配置如下面黑体所示：

job.setPartitionerClass(FirstPartitioner.class);

job.setSortComparatorClass(KeyComparator.class);

job.setGroupingComparatorClass(GroupComparator.class);

如果用户想自定义排序方式，首先需要实现两个Comparator并将其按照上面的格式进行配置。每一个Comparator需要继承WritableComparator基类。如下所示：

public static class GroupComparator extends WritableComparator {

protected GroupComparator() {

super(IntPair.class, true);

}

@Override

public int compare(WritableComparable w1, WritableComparable w2) {

IntPair ip1 = (IntPair) w1;

IntPair ip2 = (IntPair) w2;

return IntPair.compare(ip1.getFirst(), ip2.getFirst());

}

在hadoop的mapreduce编程模型中，当在map端处理完成输出key-value对时，reduce端只会将key相同的到同一个reduce函数中去执行，如果现在map端输出的key是一个对像TextPair，，那这样每个map端到reduce都会变成如下形式(因为每个对象都不一样)：

<textPair01，1>
<textPair02，1>
<textPair03，1>
<textPair04，1>
...

但是我们有个需求，该对象包含两个整型成员变量first和second，需要把map端输出的textPair中如果first相同，就让这个键值对和其他的对象一起到reduce函数中，如果textPair01中first=1，textPair02中first=1，textPair03中first=2，textPair04中first=1，那么textPair01，textPair02，textPair04
就会被同一个reduce函数处理：

<group(textPair01，textPair02，textPair04),1 1 1>

可以使用hadoop中的GroupingComparator对其进行分组，先要定义一个类继承WritableComparator：

package com.lijie.joinreduce;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class GroupComparator extends WritableComparator{

    public GroupComparator() {
        super(TextPair.class,true);
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {

        TextPair t1 = (TextPair) a;
        TextPair t2 = (TextPair) b;
        return t1.getFirst().compareTo(t2.getFirst());
    }
}

在主函数中给job添加GroupingComparatorClass：

job.setGroupingComparatorClass(GroupComparator.class);

然后再reduce函数打上断点可以发现，下面的values长度为3，key的值为textPair01，并且当你对values的迭代器执行next()函数后，key的值会变成textPair02，这里是因为进入了同一种分区的reduce方法。

reduce( TextPair key, Iterable<Text> values,Reducer<TextPair, Text, Text, Text>.Context context)

吃鱼的羊

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录