Hadoop中的各种排序

最新推荐文章于 2023-01-08 15:11:39 发布

圆圆小金子

最新推荐文章于 2023-01-08 15:11:39 发布

阅读量1.7w

点赞数 1

分类专栏： Hadoop学习笔记

本文链接：https://blog.csdn.net/kingjinzi_2008/article/details/7738188

版权

本篇博客是金子在学习hadoop过程中的笔记的整理，不论看别人写的怎么好，还是自己边学边做笔记最好了。

1：shuffle阶段的排序（部分排序）

shuffle阶段的排序可以理解成两部分，一个是对spill进行分区时，由于一个分区包含多个key值，所以要对分区内的<key,value>按照key进行排序，即key值相同的一串<key,value>存放在一起，这样一个partition内按照key值整体有序了。

第二部分并不是排序，而是进行merge，merge有两次，一次是map端将多个spill 按照分区和分区内的key进行merge，形成一个大的文件。第二次merge是在reduce端，进入同一个reduce的多个map的输出 merge在一起，该merge理解起来有点复杂，最终不是形成一个大文件，而且期间数据在内存和磁盘上都有，关于这点金子准备日后单独整理一下。

所以shuffle阶段的merge并不是严格的排序意义，只是将多个整体有序的文件merge成一个大的文件，由于同的task执行，map的输出会有所不同，所以merge后的结果不是每次都相同，不过还是严格要求按照分区划分，同时每个分区内的具有相同key的<key,value>对挨在一起。

shuffle排序综述：如果只定义了map函数，没有定义reduce函数，那么输入数据经过shuffle的排序后，结果为key值相同的输出挨在一起，且key值小的一定在前面，这样整体来看key值有序（宏观意义的，不一定是按从大到小，因为如果采用默认的HashPartitioner，则key 的hash值相等的在一个分区，如果key为IntWritable的话，每个分区内的key会排序好的），而每个key对应的value不是有序的。

应用一：金子理解：shuffle的排序随不能满足全局排序，但是实际中还是帮助我们做了很多工作，比如我们只希望把<key,value>对按照key值，将相同key的<key,value>对输出到一起，这样shuffle排序就可以满足了，也就不需要reduce函数，只单独指定map函数就OK啦！

应用二：基于分区的MapFile查找技术。（我没仔细看）

2：全排序

对于全排序，金子深有体会，借助于hadoop的Terasort，我曾经写了整数和字符串的全排序，其中代码重叠率很高，只注意改改输入格式什么的就OK了。要进行全局排序，首先要理解分区的概念，并且要使用TotalOrderpartition（因为默认的partition是hashpartition，不适用于全局排序）。主要思路就是将数据按照区间进行分割，比如对整数排序，［0，10000］的在partiiton 0中，（10000，20000］在partition 1中。。。这样排序后面的partition中的数据肯定比排在前面的partition中的数要大，宏观上看是有序的，然后在对每个分区中的数据进行排序，由于这时分区中数据量已经比较小了，在进行排序就容易的多了。在数据分布均匀的情况下，每个分区内的数据量基本相同，这种就是比较理想的情况了，但是实际中数据往往分布不均匀，出现了数据倾斜的情况，这时按照之前的分区划分数据就不合适了，此时就需要一个东西的帮助——采样器。采样的核心思想是只查看一小部分键，获得键的近似分布，并由此键分区。关于采样器的一些使用细节，可以查看我的另一篇博客：Hadoop 中的采样器－不一样的视角

最低0.47元/天解锁文章

圆圆小金子

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hadoop中的各种排序

本篇博客是金子在学习hadoop过程中的笔记的整理，不论看别人写的怎么好，还是自己边学边做笔记最好了。1：shuffle阶段的排序（部分排序）shuffle阶段的排序可以理解成两部分，一个是对spill进行分区时，由于一个分区包含多个key值，所以要对分区内的按照key进行排序，即key值相同的一串存放在一起，这样一个partition内按照key值整体有序了。第二部分并不是排
复制链接

扫一扫