排序算法-四种常用外部排序算法

1. 排序算法的类型

  1. 内部排序:数据都在内存中。

  2. 外部排序:数据太多,无法全部放入内存。

2. 外存和内存数据交换原理

操作系统以“块”为单位对磁盘存储空间进行管理,每块磁盘存储不同数据;磁盘的读/写以“块”为单位,数据读入内存后才能被修改,修改完了再写回磁盘。

3. 外部排序算法有哪些?

  1. 多路归并
  2. 多路平衡归并
  3. 败者树
  4. 置换-选择排序
  5. 最佳归并树

4. 多路归并

算法思路:使用多路归并算法,在内存中划分k个输入缓冲区和1个输出缓存区,每次从外存中读入k个段,对k个段进行归并,最终经过s 轮归并后只剩一个段,即完成整个外部排序。步骤如下:
① 生成r个初始归并段(对L个记录进行内部排序,组成一个有序的初始归并树。
② 进行s趟k路归并,s=[logk®]
在这里插入图片描述

5. 多路平衡归并

定义
① 最多只能有k个段归并为一个;
② 每一趟归并中,若m个归并段参与归并,经过这一趟处理得到[m/k]个新的归并段。
例子
第一轮归并共有8个归并段,4路归并,最终得到的是8/4个新的归并段,以下就是一个4路平衡归并排序。
在这里插入图片描述
以下特殊例子属于4路归并排序,而不是4路平衡归并排序。
在这里插入图片描述
优化:归并趟数S=【logkr】,归并路数k增加,归并趟数S减少,读写磁盘总次数减少,从而降低时间开销。
缺点:使用k路平衡归并策略,选出一个最小元素需要对比关键字(k-1)次,导致内部归并所需时间增加,例如8路归并,从8个归并段选出一个最小元素就需要对比关键字7次。

6. 败者树

定义: 败者树是树形选择排序的一种变体,可视为一颗完全二叉树(多了一个头头)。通过败者树可以降低k个归并段中选出最小元素所需要对比关键字的次数。
算法思路: k个叶节点分别对应k个归并段中当前参加比较的元素,非叶节点用来记忆左右子树中的“失败者”,而让胜者往上比较,一直到根结点,如下图所示:
在这里插入图片描述

在这里插入图片描述
优点: 对于k路归并,第一次构造败者树需要对比关键字k-1次,有了败者树,选出最小元素,只需要对比关键字[log2k]次,可以让多路平衡归并的关键字对比次数更少。

7. 置换-选择排序

算法思路: 设初始待排文件为FI,初始归并段输出文件为FO,创建内存工作区为WA,FO和WA的初始状态为空,WA可容纳w个记录,置换步骤如下:
① 从F1输入w个记录到工作区WA。
在这里插入图片描述
② 从WA中选取其中关键字取值最小的记录,记为MINIMAX记录。
③ 将MINIMAX记录输出到FO中去。
在这里插入图片描述
④ 若FI不空,则从FI输入下一个记录到WA中。
⑤ 从WA中所有关键字比MINIMAX记录的关键字大的记录中选出最小关键字记录,作为新的MINIMAX记录。
在这里插入图片描述
⑥ 重复(3)-(5),直到在WA中选不出新的MINIMAX记录为止,由此得到一个初始归并段,输出一个归并段的结束标志到FO中去。
在这里插入图片描述
⑦ 重复(2)-(6),直到WA为空。由此得到全部初始归并段。
在这里插入图片描述
优点: 解决多路归并排序内存工作区大小限制的问题。

8. 最佳归并树

定义: 最佳归并树就是将所有待归并序列构建成一个哈夫曼树,使其归并排序所调用的磁盘操作次数达到最小。

算法思路: 构造k叉哈夫曼树,每次选k个根结点权重最小的树合并,并将k个根结点的权值之和作为新的结点的权值,如下图:
在这里插入图片描述
注意: 对于k叉归并,若初始归并段的数量无法构成严格的k叉归并树,则需要补充几个长度为0的“虚段”,再进行k叉哈夫曼树的构造,如下所示:
在这里插入图片描述

排序算法-8种常见内部排序算法和4种外部排序算法

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
常用排序算法有以下几种: 1. 归并排序(Merge Sort):归并排序是一种稳定的排序算法,它将待排序的数据分成若干个子序列进行排序,然后将排好序的子序列合并成一个大的有序序列。在排序中,归并排序通常使用多路归并的方式,将大文件分成多个块,每次从这些块中选取最小的元素进行合并,直到所有元素都被合并为有序序列。 2. 快速排序(Quick Sort):快速排序是一种高效的排序算法,它通过选取一个基准元素,将待排序的数据分成左右两部分,左边的元素都小于等于基准元素,右边的元素都大于等于基准元素,然后递归地对左右两部分进行排序。在排序中,快速排序通常需要将大文件划分为多个小文件,分别进行排序后再进行合并。 3. 堆排序(Heap Sort):堆排序是一种基于二叉堆数据结构的排序算法,它通过构建最大堆或最小堆来进行排序。在排序中,堆排序通常使用多路归并的方式,通过构建最小堆来选取最小的元素进行合并。 4. 多路平衡归并(Multiway Balanced Merge):多路平衡归并是一种优化的归并排序算法,它通过将大文件分成多个块,并使用平衡树(如B树)来管理这些块,以减少磁盘的读写次数。多路平衡归并能够有效地利用磁盘的顺序读写特性,提高排序的效率。 5. 外部哈希排序(External Hash Sort):外部哈希排序是一种基于哈希表的排序算法,它将大文件划分为多个块,并使用哈希函数将数据分配到不同的块中进行排序。排序完成后,再按照哈希函数的结果进行合并。外部哈希排序适用于关键字分布均匀的情况。 这些算法都是用于对大规模数据进行排序的排序算法。它们通过合理地划分数据、利用磁盘读写特性和适当的数据结构设计来提高排序效率,并尽量减少对磁盘的读写次数。具体选择哪种算法取决于排序数据的特点和要求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值