1. 排序算法的类型
-
内部排序:数据都在内存中。
-
外部排序:数据太多,无法全部放入内存。
2. 外存和内存数据交换原理
操作系统以“块”为单位对磁盘存储空间进行管理,每块磁盘存储不同数据;磁盘的读/写以“块”为单位,数据读入内存后才能被修改,修改完了再写回磁盘。
3. 外部排序算法有哪些?
- 多路归并
- 多路平衡归并
- 败者树
- 置换-选择排序
- 最佳归并树
4. 多路归并
算法思路:使用多路归并算法,在内存中划分k个输入缓冲区和1个输出缓存区,每次从外存中读入k个段,对k个段进行归并,最终经过s 轮归并后只剩一个段,即完成整个外部排序。步骤如下:
① 生成r个初始归并段(对L个记录进行内部排序,组成一个有序的初始归并树。
② 进行s趟k路归并,s=[logk®]
5. 多路平衡归并
定义:
① 最多只能有k个段归并为一个;
② 每一趟归并中,若m个归并段参与归并,经过这一趟处理得到[m/k]个新的归并段。
例子:
第一轮归并共有8个归并段,4路归并,最终得到的是8/4个新的归并段,以下就是一个4路平衡归并排序。
以下特殊例子属于4路归并排序,而不是4路平衡归并排序。
优化:归并趟数S=【logkr】,归并路数k增加,归并趟数S减少,读写磁盘总次数减少,从而降低时间开销。
缺点:使用k路平衡归并策略,选出一个最小元素需要对比关键字(k-1)次,导致内部归并所需时间增加,例如8路归并,从8个归并段选出一个最小元素就需要对比关键字7次。
6. 败者树
定义: 败者树是树形选择排序的一种变体,可视为一颗完全二叉树(多了一个头头)。通过败者树可以降低k个归并段中选出最小元素所需要对比关键字的次数。
算法思路: k个叶节点分别对应k个归并段中当前参加比较的元素,非叶节点用来记忆左右子树中的“失败者”,而让胜者往上比较,一直到根结点,如下图所示:
优点: 对于k路归并,第一次构造败者树需要对比关键字k-1次,有了败者树,选出最小元素,只需要对比关键字[log2k]次,可以让多路平衡归并的关键字对比次数更少。
7. 置换-选择排序
算法思路: 设初始待排文件为FI,初始归并段输出文件为FO,创建内存工作区为WA,FO和WA的初始状态为空,WA可容纳w个记录,置换步骤如下:
① 从F1输入w个记录到工作区WA。
② 从WA中选取其中关键字取值最小的记录,记为MINIMAX记录。
③ 将MINIMAX记录输出到FO中去。
④ 若FI不空,则从FI输入下一个记录到WA中。
⑤ 从WA中所有关键字比MINIMAX记录的关键字大的记录中选出最小关键字记录,作为新的MINIMAX记录。
⑥ 重复(3)-(5),直到在WA中选不出新的MINIMAX记录为止,由此得到一个初始归并段,输出一个归并段的结束标志到FO中去。
⑦ 重复(2)-(6),直到WA为空。由此得到全部初始归并段。
优点: 解决多路归并排序内存工作区大小限制的问题。
8. 最佳归并树
定义: 最佳归并树就是将所有待归并序列构建成一个哈夫曼树,使其归并排序所调用的磁盘操作次数达到最小。
算法思路: 构造k叉哈夫曼树,每次选k个根结点权重最小的树合并,并将k个根结点的权值之和作为新的结点的权值,如下图:
注意: 对于k叉归并,若初始归并段的数量无法构成严格的k叉归并树,则需要补充几个长度为0的“虚段”,再进行k叉哈夫曼树的构造,如下所示: