MapReduce二次排序

最新推荐文章于 2023-03-07 23:40:20 发布

Aronlulu

最新推荐文章于 2023-03-07 23:40:20 发布

阅读量261

点赞数

分类专栏： hadoop 文章标签： Mapreduce 数据结构 Hadoop

本文链接：https://blog.csdn.net/Aronlulu/article/details/83884859

版权

hadoop 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

默认情况下，map后会对key进行默认排序，但是有时候需要对key排序的同时再对value进行排序，这时候就要用到二次排序，一步到位。
原理很简单，就是改变key，map完成后进入reduce之前排序已完成，mapreduce，只能对key来排序，如何做到对key排序的同时又对reduce排序呢？
就是改变key，将value跟key结合起来作为新key,这个新key可以是自定义数据结构，也可以利用MapWritable等hadoop自带的数据结构：
map之前：
k2 2
k2 1
k1 4
k1 3
k3 8
k3 6
改变后的结构就是：
(k2 2 ) 2
(k2 1 ) 1
(k1 4 ) 4
(k1 3 ) 3
(k3 8 ) 8
(k3 6 ) 6
接下来就可以自定义key的排序类以及分组类：
job.setGroupingComparatorClass(A.class);
job.setSortComparatorClass(B.class);
这样的话reduce之前就会变成如下排过序的数据结构：
(k1 3 ) 3
(k1 4 ) 4
(k2 1 ) 1
(k2 2 ) 2
(k3 6 ) 6
(k3 8 ) 8
最后ruduce阶段输出key即完成排序：
k1 3
k1 4
k2 1
k2 2
k3 6
k3 8
一般二次排序跟join都是利用这种整合value与key，然后再对新key做文章进行排序或者合并的方式处理。

Aronlulu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce二次排序

默认情况下，map后会对key进行默认排序，但是有时候需要对key排序的同时再对value进行排序，这时候就要用到二次排序，一步到位。原理很简单，就是改变key，map完成后进入reduce之前排序已完成，mapreduce，只能对key来排序，如何做到对key排序的同时又对reduce排序呢？就是改变key，将value跟key结合起来作为新key,这个新key可以是自定义数据结构，也可...
复制链接

扫一扫

专栏目录