Hadoop 二次排序: 三个设置以及作用

为什么要有二次排序?

Hadoop框架本身提供对Key的排序,但是正如我们在SQL中的双重排序要求一样,有时候我们会需要对key相同值按另一个字段排序的需求,这就使得我们必须要利用Hadoop的机制来间接实施二次排序。

 

步骤:

1、定义一个复合键(因为MapReduce只能对Key进行排序)

2、设置新的 comparator,用于对 Key 进行排序(等于Java中自定义Sort方法)

3、设置partitioner, 用于将数据对放在同一个reducer上(决定一个键值对去向哪里)
 

 

疑问:

在原本没有复合键的情况下,框架通过对key进行排序的方式将key相同的部分组合(group)在一起,那对于复合键来说,既然我已经分别定义了排序和分组,为什么还要指定分区(Partitioner)呢?

原理参考以下(来自于 https://www.cnblogs.com/DreamDrive/p/7693452.html):

原理:

map阶段:

使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。

本例子中使用的是TextInputFormat,他提供的RecordReder会将文本的一行的行号作为key,这一行的文本作为value。这就是自定义Map的输入是<LongWritable, Text>的原因。

然后调用自定义Map的map方法,将一个个<LongWritable, Text>对输入给Map的map方法。注意输出应该符合自定义Map中定义的输出<IntPair, IntWritable>。最终是生成一个List<IntPair, IntWritable>。

在map阶段的最后,会先调用job.setPartitionerClass对这个List进行分区,每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。

可以看到,这本身就是一个二次排序。如果没有通过job.setSortComparatorClass设置key比较函数类,则使用key的实现的compareTo方法。

 

reduce阶段:

reducer接收到所有映射到这个reducer的map输出后,也是会调用job.setSortComparatorClass设置的key比较函数类对所有数据对排序。

然后开始构造一个key对应的value迭代器。这时就要用到分组,使用jobjob.setGroupingComparatorClass设置的分组函数类。

只要这个比较器比较的两个key相同,他们就属于同一个组,它们的value放在一个value迭代器,而这个迭代器的key使用属于同一个组的所有key的第一个key。

最后就是进入Reducer的reduce方法,reduce方法的输入是所有的(key和它的value迭代器)。同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。  

 

我的理解是,MapReduce是先将键值对分区到各个Reducer,再由各个Reducer进行内部排序,再分组,所以在一开始的时候就需要设置好Partioner。

否则自然键(我们希望用于分组的键)相同而复合键不同的键值对可能不在同一个Reducer上!那么即使在多个Reducer上分别进行排序和分组及写入记录,我们最后得到的结果并不是全局有序的(多个Reducer产生多个文件)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值