图解外部排序之替换选择

阅读说明:
本文总结自《数据结构与算法分析(C++语言描述)》第四版第7章外部排序的内容。

[上一篇][1]文章已经剖析过外部排序的两种优化策略,多路合并(减少合并所需趟数)和多相合并(减少所需磁带数),今天介绍另外一种优化策略——替换选择(减少合并所需趟数)。

简单了解

替换选择从顺串的构造入手,即考虑每一趟排序中如何构造记录数更多的顺串。先复习下顺串的概念——一组排过序的记录,也就是有序的记录集。
无序的原始数据

在内存容量为 3 个记录大小 时,两路合并产生的 5 个顺串如下,

从上一篇多路合并的例子可以看出,除第一趟外,每趟的第一个顺串均比前一趟的第一顺串的记录数多,
第一趟,第一个顺串长度为3,如下

第二趟,第一个顺串长度为6,如下

因此大胆假设,如果能构造出包含更多记录数的初始顺串,就能减少总趟数。替换选择平均能产生 2 倍于内存容量大小的顺串,但这是有条件的,那就是输入数据常常是已排序或几乎被排序(书上原文,本人没懂)。

替换选择之最小堆

使用最小堆来实现替换选择。
在标准的外排中,一次读入内存可容纳的 M 个记录,排序完依次输出到空磁带上;但这里其实有个小技巧,排完序后输出第一个记录到磁带上时,内存让出了一个记录的空间,这时我们可以从输入磁带取出一个记录,判断它是否大于刚输出的记录,若是,说明它可以放入当前顺串中(顺串是从小到大有序),否则,应暂存内存,等下一个顺串的构造;
这里暂存内存书上讲是放在最小堆的死区(dead space),但是并未解释死区是什么,我认为是最小堆执行 deleteMin 操作后让出来的位置,也就是 deleteMin 之前堆的最后一个元素的位置。如下所示,最小堆的 一次 deleteMin操作,

替换选择构造详解

初始顺串的构造详解,绿色箭头表示当前输入状态,Tbn 表示输出状态,内存缓冲表示当前内存中存在的记录(括号内记录表示存在最小堆的死区)

从上图可知,与标准顺串构造方式生成的 5 个顺串相比,替换选择构造的初始顺串记录数更多,顺串数更少,只有 3 个,且前者需要 12 趟完成排序,替换选择只需 3 趟。

外部排序剖析-以磁带为例

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值