感叹《编程珠玑》这本书字字珠玑,非常强大,看了有一段时间了,所以也行整理一下看的过程中的收获和问题。
在开篇第一章中,坐着就提出了应用非常广泛、非常强大,适合于海量互异数据排序的算法——位图排序。
问题定义:
对之多只包含n(10^7)个正整数的文件排序,每一个数大小都小于n,不允许有重复的数出现,任何一个数都至多出现一次。
限制:可用的内存空间是有限的(1M),磁盘空间充足;运行时间最多不超过几分钟,理想是10秒左右。
作者介绍算法设计之前,提出了三种排序方法,大体思路如下:
- 归并排序Merge Sort:读取输入文件一次,借助在多个辅助工作文件完成排序(多次读写),结果一次写入到输出文件。
- 多遍排序multipass sort:多次读写输入文件,不适用中间文件,输出结果一次写入到文件。
- 理想排序wonder sort:结合前两种方法的有点,只读取一次输入文件,不使用中间文件。
位图排序
位图排序简单但应用广泛,非常强大。说明位图排序,这里举一个简单的例子。
假设有一串小于20的数字序列,其中任何两个数字都不相等,比如 {1.2.3.5.8.13},那么用位图如何表示这一串数字序列呢。
假定使用最简单的1位位图来表示,将这些位组织成数组,任何一个元素只能取值1或0,分别表示下标对应的数出现和不出现。定义 a[20]表示上面的数字序列,a[x]=1说明数字x存在于序列中,a[x]=0则表示x不在序列中。所以,对于 {1.2.3.5.8.13}用位图来表示,我们就可以得到位图数组:0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0。
因此,使用位图对具有至多N个并且每个数大小都小于N的互异集合进行排序,遍历集合,将位图中该数字下标对应的元素置1。
伪代码
书中给出了位图算法的伪代码:
/* phase 1:initialize set to empty */
// n is the number of bits in the vector
for i=[0,n)
bit[i]=0
/* phase 2:insert present element into the st */
for each i in the input file
bit[i]=1
/* phase 3:write sorted output */
for i=[0,n)
if bit[i]==1
write i on the output file
C语言实现
从网上参考了一个C语言实现代码,分享一下。实现的非常巧妙,利用了C语言对bit的处理,假设有10,000,000个数据,则需要内存空间为:10000000/(8*1024)=1.25M.
/*use bitmap to sort the numbers. */
#include <stdio.h>
#define BITWORDSIZE 32
#define SHIFT 5
#define MASK 0x1F
#define N 80
int a[N/BITWORDSIZE + 1];
//set the bit in a[i] for i
void set(i)
{
a[i >> SHIFT] |= (1 << (i & MASK));
}
void clear(i)
{
a[i >> SHIFT] &= ~(1 << (i & MASK));
}
int test(i)
{
return a[i >> SHIFT] & (1 << (i & MASK));
}
int main(int argc, char **argv)
{
int i;
for(i=0;i<N;i++)
{
clear(i);
}
FILE *fd;
fd=fopen("./data.in","r");
while(fscanf(fd,"%d",&i) != EOF)
{
set(i);
}
for(i=0;i<N;i++)
{
if(test(i))
{
printf("%d\n",i);
}
}
return 0;
}
参考:【http://www.cnblogs.com/Flouse/archive/2007/12/12/bitSort.html】