hadoop的mapreduce编程模型中GroupingComparator的使用

最新推荐文章于 2022-10-03 20:04:24 发布

rolin-刘瑞

最新推荐文章于 2022-10-03 20:04:24 发布

阅读量6.2k

点赞数

分类专栏： mapreduce 文章标签： mapreduce grouping comparator

mapreduce 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在hadoop的mapreduce编程模型中，当在map端处理完成输出key-value对时，reduce端只会将key相同的到同一个reduce函数中去执行，如果现在map端输出的key是一个对像TextPair，，那这样每个map端到reduce都会变成如下形式(因为每个对象都不一样)：

<textPair01，1>
<textPair02，1>
<textPair03，1>
<textPair04，1>
...
   
   1
2
3
4
5

但是我们有个需求，该对象包含两个整型成员变量first和second，需要把map端输出的textPair中如果first相同，就让这个键值对和其他的对象一起到reduce函数中，如果textPair01中first=1，textPair02中first=1，textPair03中first=2，textPair04中first=1，那么textPair01，textPair02，textPair04
就会被同一个reduce函数处理：

<group(textPair01，textPair02，textPair04),1 1 1>
   
   1

可以使用hadoop中的GroupingComparator对其进行分组，先要定义一个类继承WritableComparator：

package com.lijie.joinreduce;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class GroupComparator extends WritableComparator{

    public GroupComparator() {
        super(TextPair.class,true);
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {

        TextPair t1 = (TextPair) a;
        TextPair t2 = (TextPair) b;
        return t1.getFirst().compareTo(t2.getFirst());
    }
}
   
   1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

在主函数中给job添加GroupingComparatorClass：

job.setGroupingComparatorClass(GroupComparator.class);
   
   1

然后再reduce函数打上断点可以发现，下面的values长度为3，key的值为textPair01，并且当你对values的迭代器执行next()函数后，key的值会变成textPair02，这里是因为进入了同一种分区的reduce方法。

reduce( TextPair key, Iterable<Text> values,Reducer<TextPair, Text, Text, Text>.Context context)
   
   1

rolin-刘瑞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录