map任务中，merge过程的实现方法

最新推荐文章于 2024-07-01 00:26:48 发布

alain898

最新推荐文章于 2024-07-01 00:26:48 发布

阅读量2.2k

点赞数

分类专栏： hadoop源码阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alain898/article/details/9299875

版权

hadoop源码阅读专栏收录该内容

11 篇文章 0 订阅

订阅专栏

大写的FS表示“分布式文件系统”

map任务中，merge的实现方法

首先，在map任务产生的所有中间文件（即IFile格式文件）中，选择文件大小最小的io.sort.factor（即源代码中的factor变量）个文件，然后将代表这些文件的Segment实例化对象各自作为一个节点，建成一个“小顶堆”。而对这个小顶堆中各个节点排序的比较方法，实际上就是在比较各个Segment第一个键值对的大小。Segment的键值对是在其next方法中更新的。由于每个Segment内部就是按从小到大顺序排列的，故这个merge的过程，其实就是多路有序队列归并的过程，并且在归并过程中使用的排序方法就是“堆排序”方法，每次 “堆排序”的过程体现在将“Segments堆”建成“小顶堆”的过程。

总结如下：
1）将代表IFile格式文件的factor个Segments组成一个“小顶堆”；
2）从Segment所组成的“小顶堆”中选择出“堆顶”，对这个“堆顶”求getKey和getValue就是选中的键值对，将该键值对输出到输出文件中；
3）更新由Segment所组成的堆，使其再次成为一个“小顶堆”；
4）重复2）～3），直到所有的键值对输出到输出文件中。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
map任务中，merge过程的实现方法

大写的FS表示“分布式文件系统”map任务中，merge的排序算法首先，在map任务产生的所有中间文件（即IFile格式文件）中，选择文件大小最小的io.sort.factor（即源代码中的factor变量）个文件，然后将代表这些文件的Segment实例化对象各自作为一个节点，建成一个“小顶堆”。而对这个小顶堆中各个节点排序的比较方法，实际上就是在比较各个Segment第一个键值对
复制链接

扫一扫

专栏目录

alain898 CSDN认证博客专家 CSDN认证企业博客

码龄12年

12: 原创

62万+: 周排名

63万+: 总排名

1万+: 访问

: 等级

302: 积分

1: 粉丝

0: 获赞

3: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

mapreduce中的split(分片)问题
Mr-zhou 回复 alain898: 嗯如果不是文件的第一个split 跳过首行并减一个字符定是新split要处理的开始。
mapreduce中的split(分片)问题
alain898 回复 Mr-zhou: 因为map任务在读文件的时候是一行一行读的，它要保证"一行"的完整性。所以，如果有一行数据（记为Line_A）一部分在前一个分片(记为Split_A)中，一部分在后一个分片(记为记为Split_B)中，那么Split_B中开头的属于Line_A的部分字节就一定会被处理Split_A分片的map任务读取并处理，所以处理Split_B的map任务是不需要处理这部分数据的。我这里摘录的程序段只是一个函数，不是map任务读数据的全部细节。如果你想知道具体的细节，可以读相关的源码。程序下面的文字只是为了说明split和block这两个概念在程序设计逻辑方面的联系，以方便自己将这两个概念弄清楚而已。上面这段程序帮我想明白了这点，但是这段文字并不是为了解释上面这段程序。呵呵，解释的不好，希望您能原谅。
mapreduce中的split(分片)问题
Mr-zhou: 请问你下面这几行是如何理解出来的呢？我看了你写的，也没弄明白 } else {//输入文件是非压缩文件，对于非压缩文件，跳过第一行，因为第一行在前一个split中已读过 if (start != 0) {//如果split分界点位于一行的某个字节中，那么这行就已经在上个split中被读过 skipFirstLine = true;//故可以跳过这一行了 --start;//如果恰好行分界点与split分界点相同，就先向前移动一个字符，这样就回到上一行了 fileIn.seek(start);//因此也需要跳过这行

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。