什么是外部排序?

本文介绍了外部排序的基本概念,着重探讨了归并排序在处理大文件时如何通过增大归并路数和调整归并段长度来减少磁盘I/O操作,以提升排序效率。涉及的技术细节包括败者树和置换-选择排序策略,以及K路平衡归并的实现原理。
摘要由CSDN通过智能技术生成

外部排序的基本概念

在内存中进行的排序是内部排序,而在许多应用中,经常需要对大文件进行排序,因为文件中的记录很多、信息量庞大,无法将整个文件复制进内存中进行排序。因此,需要将待排序的记录存储在外存中,排序时再把数据一部分一部分地调入内存进行排序,在排序过程中需要多次进行内存和外存之间地交换。这种排序方法就称为外部排序。

  1. 外部排序指待排序文件较大,内存中一次性放不下,需存放在外存地文件地排序。
  2. 为减少平衡归并中外存读写次数所采取地方法:增大归并路数和减少归并段个数
  3. 利用败者树增大归并路数
  4. 利用置换-选择排序增大归并段长度来减少归并段个数
  5. 由长度不等地归并段,进行多路平衡归并,需要构造最佳归并树

外部排序的方法

文件通常是按块存储在磁盘上的,操作系统也是按块对磁盘上的信息进行读写的。因为磁盘读 / 写的机械动作所需的时间远远超过内存运算的时间(相对而言可以忽略不记),因此在外部排序过程中的时间代价主要考虑访问磁盘的次数,即I/O次数。
外部排序通常采用归并排序法。它包括两个相对独立的阶段:

  1. 根据内存缓冲区大小,将外存上的文件分成若干长度为t的子文件,依次读入内存并利用内部排序方法对他们进行排序,并将排序后得到的有序子文件重新写回外存,称这些有序子文件为归并段或顺串。
  2. 对这些归并段进行逐趟归并,是归并段逐渐由小到大,直至得到整个有序文件位置。

在外部排序中实现两两归并时,由于不可能将两个有序段及归并结果段同时存放在内存中,因此需要不停地将数据读出、写入磁盘,而这会耗费大量的时间。一般情况下:
外部排序的总时间 = 内存排序所需的时间 + 外存信息读取的时间 + 内部归并所需的时间
显然,外村信息读取地时间远大于内部排序和内部归并地的时间,因此应着力减少I/O次数。由于外村信息的读/写是以“磁盘块”为单位进行的,以8个归并段为例,可知每一趟归并需进行16次读和16次写,3趟归并并加上内部排序时所需进行的读/写,使得总共需进行128次读写。若改用4路归并排序,则只需2趟排序,外部排序时的总读写次数便减少为96。
因此增大归并路数可以减少归并趟数,进而减少总的磁盘I/O次数。

一般的,对r个初始归并段,做K路平衡归并。
K路平衡归并:

  1. 最多只能有k个段归并为一个
  2. 第一趟可将r个初始归并段归并为[r/k],以后每趟归并并将m个归并段归并成[m/k]个归并段,直至最后形成一个大的归并段位置。
  3. 树的高度 = [logkr]=归并趟数S。可见,只要增大归并路数k,或减少初始归并段个数r,都能减少归并趟数S,进而减少读写磁盘的次数,达到提高外部排序速度的目的。

后续

如果想了解更多物联网、智能家居项目知识,可以关注我的程序设计专栏
订阅专栏后,可以在微信公众号上私聊我,直接发给你源码。
或者关注公众号。
在这里插入图片描述

编写不易,感谢支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

物联网知识

编写不易,打赏支持一下我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值