External Sorting
外部排序,指待排序文件较大,内存依次放不下,需存放在外存的文件的排序。
在许多应用中,经常需要对大文件进行排序,因为文件中的记录很多、信息量庞大,无法将整个文件复制进内存中进行排序。因此,需要将待排序的记录存储在外存上,排序时再把数据一部分一部分地调入内存进行排序,在排序过程中需要多次进行内存和外存之间的交换。
外部排序的方法
外部排序过程中的时间代价主要考虑访问磁盘的次数,即I/O次数
。
外部排序通常采用归并排序法。它包括两个相对独立的阶段:
- 根据内存缓冲区的大小,将外存上的文件分成若干长度为 l 的子文件,依次读入内存并利用内部排序方法对它们进行排序,并将排序后得到的有序子文件重新写回外存,称这些有序子文件为归并段或顺串;
- 对这些归并段进行逐趟归并,并使归并段(有序子文件)逐渐由小到大,直至得到整个有序文件为止。
例如,一个含有2000个记录的文件,每个磁盘块可容纳125个记录,首先通过8次内部排序得到8个初始归并段R1~R8(每个归并段都有两个磁盘),每个段都含有250个记录。然后对该文件作两两归并,直至得到一个有序文件。
关于缓冲区的操作:
- 首先,从两个输入归并段 R1 和 R