磁盘文件排序－－blockSort和MRSort

原创于 2010-07-24 09:06:00 发布 · 1.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#磁盘 #merge #mapreduce #算法 #文档

本文探讨了Nutch中的BlockSort算法原理及其实现过程，并与MapReduce的排序算法（MRSort）进行了对比。BlockSort适用于内存有限的情况，通过多次读取和排序文件块来完成整体排序。而MRSort则先对文件进行抽样分区，再分别排序各分区，避免了最终的合并步骤。

今天看到了在Nutch的文档里说的BlockSort，见http://wiki.apache.org/nutch/WebDB

blockSort的排序方法是如果文件大小是可用内存的K倍，就先把1/k读入内存，进行排序后写入一个新文件，依次操作之后，就能得到K个文件。然后打开这k个文件，读取每个文件的头一个元素并进行比较，把最小的写入磁盘，然后从提供最小的元素的那个文件中读下一个，依次类推，可以最终得到一个完整的排序。

要注意的是，如果内存够大，merge的时候可以多读入一些元素而不是仅仅读入一个；如果k过大，可以进行多步merge，最后合为一个。

这让我想到了MapReduce进行排序时候的算法（这里暂时叫它MRSort），MR虽然是分布式的，但是这个算法同样是可以用于单机排序的。

MRSort一上来并不急于排序，它首先对文件进行抽样调查，考察一定数量的元素，然后把元素的分布划分成M个区间，然后再读待排序文件，把属于不同区间的元素写入不同的文件，这样就得到了M个无序的文件。然后再对m个文件进行排序。最终得到m个有序的文件，而MRSort不需要merge，因为这些文件是分区间的，不同区间的元素属于不同文件，因此没有必要merge。

可见MRsort理论上应该是更快一些，但是它的效率受抽样结果的影响。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。