外部排序的概念
外排序(External sorting)是指能够处理极大量数据的排序算法。
外排序算法的核心思路在于把文件分块读到内存,在内存中对每块文件依次进行排序,最后合并排序后的各块数据,依次按顺序写回文件。外排序需要进行多次磁盘读写,因此执行效率往往低于内排序,时间主要花费于磁盘读写上。
外排序的算法步骤如下:
假设文件需要分成k块读入,需要从小到大进行排序。
- 依次读入每个文件块,在内存中对当前文件块进行排序(应用恰当的内排序算法)。此时,每块文件相当于一个由小到大排列的有序队列。
- 在内存中建立一个最小堆,读入每块文件的队列头。
- 弹出堆顶元素,如果元素来自第i块,则从第i块文件中补充一个元素到最小值堆。弹出的元素暂存至临时数组。
- 当临时数组存满时,将数组写至磁盘,并清空数组内容。
- 重复过程(3)、(4),直至所有文件块读取完毕。
需要注意的是,上面的分治-合并思想是普遍适用的。而如果我们已知数据的范围,就可以直接借用桶排序的思想,将某一个范围内的数据哈希到同一个小文件中,排好序。最后再按顺序,逐个将每个桶里的排序数据串起来,而不用再使用堆排序或归并排序等方式了。
位图排序
题目:一个最多包含n个正整数的文件,每个数都小于n,其中n=10^7,且所有正整数都不重复。求如何将这n个正整数升序排列。
约束:最多有1MB的内存空间可用,有充足的磁盘存储空间。
我们使用hash映射,将对应的正整数映射到位图集合中。即将正整数映射到bit集合中,每一个bit代表其映射的正整数是否存在。
比如{1,2,3,5,8,13}
使用下列集合表示:
0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0
- 我们可以创建有个10^7位(10^7/8/1024/1024≈1MB)的字符串来表示这个文件;
- 读取文件,对每一个正整数,将内存中bit[i] 位设置成1;
- 按位顺序读取字符串。当读取到bit[j] 为1时输出(int)j。
位图的实现
class Bitmap
{
public:
Bitmap(): _size(0)
{}
//按照大小初始化bitmap
//size>>5表示用多少个32位int
Bitmap(size_t size) :_size(0)
{
_array.resize((size>>5)+1);
}
//将num对应的位置1
void Set(size_t num)
{
size_t index = num >> 5;
size_t i = num % 32;
if (_array[index] & (1 << i))
{
return;
}