Hadoop 二次排序：三个设置以及作用

Rikayo

于 2019-10-31 17:12:42 发布

阅读量272

点赞数

文章标签： Hadoop MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41946792/article/details/102841728

版权

为什么要有二次排序？

Hadoop框架本身提供对Key的排序，但是正如我们在SQL中的双重排序要求一样，有时候我们会需要对key相同值按另一个字段排序的需求，这就使得我们必须要利用Hadoop的机制来间接实施二次排序。

步骤：

1、定义一个复合键（因为MapReduce只能对Key进行排序）

2、设置新的 comparator，用于对 Key 进行排序（等于Java中自定义Sort方法）

3、设置partitioner, 用于将数据对放在同一个reducer上（决定一个键值对去向哪里）

疑问：

在原本没有复合键的情况下，框架通过对key进行排序的方式将key相同的部分组合（group）在一起，那对于复合键来说，既然我已经分别定义了排序和分组，为什么还要指定分区（Partitioner）呢？

原理参考以下（来自于 https://www.cnblogs.com/DreamDrive/p/7693452.html）：

原理：

在map阶段：

使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。

本例子中使用的是TextInputFormat，他提供的RecordReder会将文本的一行的行号作为key，这一行的文本作为value。这就是自定义Map的输入是<LongWritable, Text>的原因。

然后调用自定义Map的map方法，将一个个<LongWritable, Text>对输入给Map的map方法。注意输出应该符合自定义Map中定义的输出<IntPair, IntWritable>。最终是生成一个List<IntPair, IntWritable>。

在map阶段的最后，会先调用job.setPartitionerClass对这个List进行分区，每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。

可以看到，这本身就是一个二次排序。如果没有通过job.setSortComparatorClass设置key比较函数类，则使用key的实现的compareTo方法。

在reduce阶段：

reducer接收到所有映射到这个reducer的map输出后，也是会调用job.setSortComparatorClass设置的key比较函数类对所有数据对排序。

然后开始构造一个key对应的value迭代器。这时就要用到分组，使用jobjob.setGroupingComparatorClass设置的分组函数类。

只要这个比较器比较的两个key相同，他们就属于同一个组，它们的value放在一个value迭代器，而这个迭代器的key使用属于同一个组的所有key的第一个key。

最后就是进入Reducer的reduce方法，reduce方法的输入是所有的（key和它的value迭代器）。同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。

我的理解是，MapReduce是先将键值对分区到各个Reducer，再由各个Reducer进行内部排序，再分组，所以在一开始的时候就需要设置好Partioner。

否则自然键（我们希望用于分组的键）相同而复合键不同的键值对可能不在同一个Reducer上！那么即使在多个Reducer上分别进行排序和分组及写入记录，我们最后得到的结果并不是全局有序的（多个Reducer产生多个文件）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 二次排序：三个设置以及作用

为什么要有二次排序？Hadoop框架本身提供对Key的排序，但是正如我们在SQL中的双重排序要求一样，有时候我们会需要对key相同值按另一个字段排序的需求，这就使得我们必须要利用Hadoop的机制来间接实施二次排序。步骤：1、定义一个复合键（因为MapReduce只能对Key进行排序）2、设置新的 comparator，用于对 Key 进行排序（等于Java中自定义Sort方...
复制链接

扫一扫

Rikayo CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

107万+: 周排名

201万+: 总排名

4万+: 访问

: 等级

259: 积分

3: 粉丝

20: 获赞

4: 评论

45: 收藏

私信

关注

分类专栏

基础 2篇
网络 1篇
Hadoop 1篇
Idea 1篇
Bug 1篇
Java 2篇
web 1篇

最新评论

新手学习日记-Javascript和Html 1：如何在html中调用Js函数
qq_52718565: var的作用域是全局吧
VMware 面经：SSL协议的工作过程
vhwfif: 写的真好,核心理念都包含了,有个小点,客户端发出连接请求时带上自己支持的加密算法信息是为了双方要使用一样的加密算法生成对称密钥.
新手学习日记-Javascript和Html 1：如何在html中调用Js函数
yufudong: 不return 想要值那就定义一个变量把他接出来
新手学习日记-Javascript和Html 1：如何在html中调用Js函数
weixin_47903137: 请问如果不return，想要返回demo（）函数里的内容怎么办？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

目录

分类专栏

基础 2篇
网络 1篇
Hadoop 1篇
Idea 1篇
Bug 1篇
Java 2篇
web 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。