阅读说明:
本文总结自《数据结构与算法分析(C++语言描述)》第四版第7章外部排序的内容。
[上一篇][1]文章已经剖析过外部排序的两种优化策略,多路合并(减少合并所需趟数)和多相合并(减少所需磁带数),今天介绍另外一种优化策略——替换选择(减少合并所需趟数)。
简单了解
替换选择从顺串的构造入手,即考虑每一趟排序中如何构造记录数更多的顺串。先复习下顺串的概念——一组排过序的记录,也就是有序的记录集。
无序的原始数据
在内存容量为 3 个记录大小 时,两路合并产生的 5 个顺串如下,
从上一篇多路合并的例子可以看出,除第一趟外,每趟的第一个顺串均比前一趟的第一顺串的记录数多,
第一趟,第一个顺串长度为3,如下
第二趟,第一个顺串长度为6,如下
因此大胆假设,如果能构造出包含更多记录数的初始顺串,就能减少总趟数。替换选择平均能产生 2 倍于内存容量大小的顺串,但这是有条件的,那就是输入数据常常是已排序或几乎被排序(书上原文,本人没懂)。
替换选择之最小堆
使用最小堆来实现替换选择。
在标准的外排中,一次读入内存可容纳的 M 个记录,排序完依次输出到空磁带上;但这里其实有个小技巧,排完序后输出第一个记录到磁带上时,内存让出了一个记录的空间,这时我们可以从输入磁带取出一个记录,判断它是否大于刚输出的记录,若是,说明它可以放入当前顺串中(顺串是从小到大有序),否则,应暂存内存,等下一个顺串的构造;
这里暂存内存书上讲是放在最小堆的死区(dead space),但是并未解释死区是什么,我认为是最小堆执行 deleteMin 操作后让出来的位置,也就是 deleteMin 之前堆的最后一个元素的位置。如下所示,最小堆的 一次 deleteMin操作,
![](https://i-blog.csdnimg.cn/blog_migrate/2a76e88748bec63595dd0b3cfe4a96fc.png)
替换选择构造详解
初始顺串的构造详解,绿色箭头表示当前输入状态,Tbn 表示输出状态,内存缓冲表示当前内存中存在的记录(括号内记录表示存在最小堆的死区)
从上图可知,与标准顺串构造方式生成的 5 个顺串相比,替换选择构造的初始顺串记录数更多,顺串数更少,只有 3 个,且前者需要 12 趟完成排序,替换选择只需 3 趟。