问题:1MB是严格的边界。
原数据文件称为A,输出文件称为B,中间文件称为T。
假定读文件A花费1单位时间,写同样多的数据花费2单位时间,在此假设下进行效率分析,并且只考虑读写文件的时间,不考虑内存内操作的时间。
方法一:
分两次读入A,仍用位图方式排序。第一次对 1~8M范围内的数据排序,第二次对8M+1~10M范围内的数据排序。第一次排序所得写到B,第二次排序所得添加到B的后面即可。
效率:读两次A,写一次B,总花费4单位时间。不用中间文件。
方法二:
读入文件A,对1~8M范围内的数据排序,并对8M+1~10M范围内的数据写到T,1~8M范围内的排序结果写到B;然后读入文件T,对其中的数据排序,添加到B。
效率:读一次A,读写一次T,写一次B,效率依赖于数据分布,用到中间文件。
数据分布均匀的情况下,size(T)=1/5 size(A),总花费3.6单位时间。
最坏情况下,所有数据都在8M+1~10M范围内,总花费6单位时间。
方法三:(方法二的优化)
先申请与A大小的文件作为B,将8M+1~10M范围内的数据写到B的末端,这样不用中间文件。