Mapreduce排序

最新推荐文章于 2024-04-17 16:49:54 发布

tu_feng_wei

最新推荐文章于 2024-04-17 16:49:54 发布

阅读量872

点赞数 1

本文链接：https://blog.csdn.net/tu_feng_wei/article/details/108830812

版权

一、排序概述
1、排序是 MR 中非常重要的操作之一，MapTask 和 ReduceTask 都会对数据按照 key 进行排序。该操作是默认行为。任何 MR 程序中数据均会被排序，而不看逻辑是否需要。

2、MapTask 中，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率到一定的阈值，再对缓冲区数据进行一次快排，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序。

3、ReduceTask 中，它从每个 MapTask 上远程拷贝相应的数据文件，如果文件大小超过一定阈值，则溢写到磁盘上，否则储存在内存上。如果磁盘上文件数目达到一定阈值，则进行一次归并排序以生成一个更大文件。如果内存中文件大小或者数目超过一定阈值，则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完后，ReduceTask 统一对内存和磁盘上的所有数据进行一次归并排序。

二、排序的分类
1、部分排序
MapReduce 根据输入记录的键对数据集排序，保证输出的每个文件内部有序。

2、全排序
最终输出结果只要一个文件，且文件内部有序。实现方式是只设置一个 ReduceTask。但该方法在处理大型文件时效率极低，因为一台机器处理所有文件，完全丧失了 MapReduce 所提供的并行架构。

3、辅助排序(GroupingComparator分组)
在 Reduce 端对 key 进行分组。应用于：在接收的 key 为 bean 对象时，想让一个或几个字段相同(全部字段比较不相同)的 key 进入到同一个 reduce 方法时，可以采用分组排序。

4、二次排序
在自定义排序过程中，如果 compareTo 的判断条件为两个即为二次排序。

tu_feng_wei

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce排序

一、排序概述1、排序是 MR 中非常重要的操作之一，MapTask 和 ReduceTask 都会对数据按照 key 进行排序。该操作是默认行为。任何 MR 程序中数据均会被排序，而不看逻辑是否需要。2、MapTask 中，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率到一定的阈值，再对缓冲区数据进行一次快排，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序。3、ReduceTask 中，它从每个 MapTask 上远程拷贝相应的数据文件，如果文件大小超过一
复制链接

扫一扫