外部排序~

RunningBeef

已于 2022-03-17 21:02:50 修改

阅读量543

点赞数 1

文章标签：数据结构面试

于 2022-03-16 17:55:35 首次发布

本文链接：https://blog.csdn.net/RunningBeef/article/details/123532172

版权

被面试官问了个对数组求交集，但是内存只能装载一个数组。然后想到数据结构的外部排序，但是当时没去看，现在补一下

对于这个面试问题的个人解法，可能不对，欢迎交流

朋友的解法感觉很妙！！！

基本方法

优化与分析

归并趟数： ${log_k{m}}$
普通K路归并段归并每次取出一个最小元素要比较 k - 1 次,n个记录的内部归并段需要(n - 1) * (k - 1)
内部归并比较次数 $k - 1)(n - 1){log_k{m}}$
多路平衡归并：将每次取出一个最小元素花的时间优化为 ${log_2{k}}$
使用败者树，叶子节点是归并段，值小的是胜利者，先调整，之后取出冠军，在从冠军对应的段中拿出新的数据（为了保证每个段都不空，给每个段尾加一个最大关键字，当冠军是最大关键字，说明已经归并完了）
于是K路归并比较次数 $n - 1){log_2{m}}$

继续优化：减少m的大小

置换-选择排序
内排得到的归并段数目取决于工作区域大小 m = n/l，n为记录数，l为工作区可以装载的记录个数
为了减少归并段m,于是有了置换-选择排序算法来得到我们的归并段，原理是把做排序的时候把工作区拿来当类似缓冲的东西，通过败者树把原记录的文件有序的归并到多个其他文件。具体实现自行查阅.可以证明数据是随机数时，得到归并段平均长度是内存工作区 w 的两倍，则归并段数目减半。通过扫雪机证明可以得到生成所有归并段时间复杂度是 $O{nlog_2{w}}$

新的问题：置换-选择生成所得到的初始归并段，各个段长度不等对平衡归并的影响

关注