外排序

最新推荐文章于 2015-05-26 15:28:17 发布

Greemeet

最新推荐文章于 2015-05-26 15:28:17 发布

阅读量457

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/Greemeet/article/details/11786065

版权

算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

排序分为两类：内排序和外排序。

内部排序是指待排序列完全存放在内存中所进行的排序过程，适合不太大的元素序列。

外排序（External sorting）是指能够处理极大量数据的排序算法。通常来说，外排序处理的数据不能一次装入内存，只能放在读写较慢的外存储器（通常是硬盘）上。外排序通常采用的是一种“排序-归并”的策略。在排序阶段，先读入能放在内存中的数据量，将其排序输出到一个临时文件，依此进行，将待排序数据组织为多个有序的临时文件。尔后在归并阶段将这些临时文件组合为一个大的有序文件，也即排序结果。

外排序的一个例子是外归并排序（External merge sort），它读入一些能放在内存内的数据量，在内存中排序后输出为一个顺串（即是内部数据有序的临时文件），处理完所有的数据后再进行归并。比如，要对 900 MB 的数据进行排序，但机器上只有 100 MB 的可用内存时，外归并排序按如下方法操作：
1.读入 100 MB 的数据至内存中，用某种常规方式（如快速排序、堆排序、归并排序等方法）在内存中完成排序。
2.将排序完成的数据写入磁盘。
3.重复步骤 1 和 2 直到所有的数据都存入了不同的 100 MB 的块（临时文件）中。在这个例子中，有 900 MB 数据，单个临时文件大小为 100 MB，所以会产生 9 个临时文件。
4.读入每个临时文件（顺串）的前 10 MB （ = 100 MB / (9 块 + 1)）的数据放入内存中的输入缓冲区，最后的 10 MB 作为输出缓冲区。（实践中，将输入缓冲适当调小，而适当增大输出缓冲区能获得更好的效果。）

5.执行九路归并算法，将结果输出到输出缓冲区。一旦输出缓冲区满，将缓冲区中的数据写出至目标文件，清空缓冲区。一旦9个输入缓冲区中的一个变空，就从这个缓冲区关联的文件，读入下一个10M数据，除非这个文件已读完。这是“外归并排序”能在主存外完成排序的关键步骤 -- 因为“归并算法”(merge algorithm)对每一个大块只是顺序地做一轮访问(进行归并)，每个大块不用完全载入主存。

为了增加每一个有序的临时文件的长度，可以采用置换选择排序（Replacement selection sorting）。它可以产生大于内存大小的顺串。具体方法是在内存中使用一个最小堆进行排序，设该最小堆的大小为 M。算法描述如下：
1.初始时将输入文件读入内存，建立最小堆。
2。将堆顶元素输出至输出缓冲区。然后读入下一个记录：
1）若该元素的关键码值不小于刚输出的关键码值，将其作为堆顶元素并调整堆，使之满足堆的性质；
2）否则将新元素放入堆底位置，将堆的大小减 1。
3.重复第 2 步，直至堆大小变为 0。
4.此时一个顺串已经产生。将堆中的所有元素建堆，开始生成下一个顺串。[3]
此方法能生成平均长度为 2M的顺串，可以进一步减少访问外部存储器的次数，节约时间，提高算法效率。

上述例子的外排序有两个步骤：排序和归并。我们用一次多路归并就完成了所有临时文件的归并，而并非按内存中的二路归并那样，一次归并两个子串，耗费次归并。外排序中不适用上述方法的原因在于每次读写都需要对硬盘进行读写，而这时非常缓慢的。所以应该尽可能减小磁盘的读写次数。
不过，在上述方法中也存在权衡。当临时文件（顺串）的数量继续增大时，归并时每次可从顺串中读入的数据减少了。比如说，50 GB 的数据量，100 MB 的可用内存，这种情况下用一趟多路归并就显得不划算。读入很多的顺串花费的时间占据了排序时间的大部分。这时，我们可以用多次（比如两次）归并来解决这个问题。
这时排序算法变为下述这样：
1.第一步不变。
2.将小的顺串合并为大一些的顺串，适当减小顺串的数目。
3.将剩余的大一些的顺串归并为最终结果。
和内排序一样，高效的外排序所耗的时间依然是。若利用好现在计算机上 GB 的内存，可使时间复杂度中的对数项增长比较缓慢。