MapReduce排序过程

最新推荐文章于 2023-11-09 21:48:15 发布

星有印象

最新推荐文章于 2023-11-09 21:48:15 发布

阅读量3.4k

点赞数 3

文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a6a6a_6/article/details/123805304

版权

排序是MapReduce框架中最重要的操作之一。

MapTask和ReduceTask均会对数据按照key 进行排序。该操作属于Hadoop 的默认行为，任何应用程序中的数据均会被排序，而不管逻辑上是否需要。

默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。

发生排序时机

MapTask

1，当环形缓冲区使用率达到一定阈值后，对缓冲区的数据进行一次快速排序。

2，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，他会对磁盘上所有文件进行归并排序

ReduceTask

3，当所有数据拷贝完毕后，ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。

排序分类：

1，部分排序：

MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。

2，全排序：

最终输出结果只有一个文件，且文件内部有序。实现方式是指设置一个ReduceTask，但该方法在处理大型文件时效率极低，因为一台机器处理所有文件，完全丧失了MapReduce所提供的并行架构。

3，辅助排序（GroupingConparator分组）：

在Reduce端对key进行分组。应用于：在接受的key为bean对象时，想让一个或几个字段相同（全部字段比较不相同）的key进入同一个reduce 方法时，可以采用分组排序。

4，二次排序：

在自定义的排序过程中，如果compartTo中的判断条件为两个即为二次排序。

(1)CompareTo方法

CompareTo方法被称为自然比较法，利用当前对象和传入对象进行比较

若是当前对象比目标对象大，则返回1，那么当前对象会排在目标对象后面

若当前对象比目标对象小，则返回-1，那么当前对象会排在目标对象后面

若两个对象都相等，则返回0。

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
1
评论
MapReduce排序过程

排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key 进行排序。该操作属于Hadoop 的默认行为，任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。发生排序时机MapTask1，当环形缓冲区使用率达到一定阈值后，对缓冲区的数据进行一次快速排序。2，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，他会对磁盘上所有文件进行归并排序Red...
复制链接

扫一扫

星有印象 CSDN认证博客专家 CSDN认证企业博客

码龄3年

21: 原创

106万+: 周排名

134万+: 总排名

2万+: 访问

: 等级

234: 积分

5: 粉丝

17: 获赞

5: 评论

18: 收藏

私信

关注

热门文章

最新评论

MapReduce排序过程
小影1022: MapTask如何对磁盘上所有文件进行归并排序？？？？这一步怎么实现的。
kafka 故障处理细节
java纯小白的日常: yjx？
linux常用命令
搬砖党弟中弟中弟: 感谢大佬，汇总的很齐全，linux命令有你这一篇文章就够了
linux目录结构
m0_67174070: 别卷了再卷就秃了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

星有印象 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。