利用bitmap进行海量数据排序

每一个排序算法都有优劣性,主要在于数据的构成。比如,有些排序算法对某类数据的排序效率很高,对某类数据的排序效率很低,而有些算法对数据构成却无关紧要。

bitmap对不重复且都为正数的海量数据进行排序真是不二选择,效率大大的高,根据我的代码测算,1亿条数据大概也就30秒左右,占用内存12M左右。而在用快排测试时,用时比这长很多,等了好几分钟就停止执行了,也不知到底会化多长时间。不过,bitmap的确比快排快很多很多。

bitmap的原理如下:

0100 0000 0000 0000 0000 0000 0000 0000  //1
0110 0000 0000 0000 0000 0000 0000 0000  //1 2
0110 0010 0000 0000 0000 0000 0000 0000  //1 2 6
0110 1010 0000 0000 0000 0000 0000 0000  //1 2 4 6
0111 1010 0000 0000 0000 0000 0000 0000  //1 2 3 4 6
0111 1110 0000 0000 0000 0000 0000 0000  //1 2 3 4 5 6
0111 1110 0100 0000 0000 0000 0000 0000  //1 2 3 4 5 6 9
0111 1110 1100 0000 0000 0000 0000 0000  //1 2 3 4 5 6 8 9
1111 1110 1100 0000 0000 0000 0000 0000  //0 1 2 3 4 5 6 8 9
1111 1110 1110 0000 0000 0000 0000 0000  //0 1 2 3 4 5 6 8 9 10
1111 1111 1110 0000 0000 0000 0000 0000  //0 1 2 3 4 5 6 7 8 9 10

不知你看出规律了么?

这种思想便是位向量的思想,标示一个数据仅用二进制的一位。而我们熟知的C 、C++ 中没有对应一个二进制位的数据类型,因此,要实现位向量,需要借助于位操作。这里,我们采用整型数组模拟定义1000万个位的数组。问题的纠结处即是如何用整型数组模拟定义1000万个位的数组。其实上面的简化例子已将问题描述的相当清楚,如A[0](32位中的每位)可表示0-31的整数,A[1]表示32-63……

好了,原理就是这样,上代码:

#include <stdio.h>
#include <time.h>
#define MAXNUM	  11000000
#define NUMCOUNT  MAXNUM

void setbit(unsigned int *num,unsigned int bit);
unsigned getbit(unsigned int num,unsigned int bit);

int main(void)
{
	FILE *srcfp = NULL;
	unsigned i = 0;
	unsigned j = 0;
	unsigned num = 0,tnum = 0;
	unsigned int *arr = NULL;
	unsigned iflag = 0,jflag = 0;
	clock_t start,finish;
	if (NULL == (srcfp = fopen("d:\\b.txt","rb+")))
	{
		printf("ERROR!\n");
		getch();
		exit(1);
	}
	arr = (unsigned int *)malloc(sizeof(unsigned)*(MAXNUM/32 + 1));
	memset(arr,0,sizeof(unsigned)*(MAXNUM/32 + 1));
	//读取每一个值 
	start = clock();
	printf("开始执行……\n");
	fseek(srcfp,0,SEEK_SET);
	for (i = 0;i < NUMCOUNT;i ++)
	{
		fread(&num,sizeof(unsigned),1,srcfp);
		iflag = num/32;
		jflag = num%32;
		setbit(arr + iflag,31 - jflag);
	}
	
	fseek(srcfp,0,SEEK_SET);
	for (i = 0;i < MAXNUM/32 + 1;i ++)
	{
		tnum = *(arr + i);
		for (j = 0;j < 32;j ++)
		{
			if (getbit(tnum,31 - j))
			{
				num = i*32 + j;
				fwrite(&num,sizeof(unsigned),1,srcfp);
			}
		}
	}
	fclose(srcfp);
	finish = clock();
	printf("\n排序完成:%dms\n",finish - start);
	free(arr);
	getch();
	return 0;
}

void setbit(unsigned int *num,unsigned int bit)
{
	*num |= 0x1<<bit; //0 - 31
}

unsigned getbit(unsigned int num,unsigned int bit)
{
	return (num>>bit)&0x1;//0 - 31
}

关于测试数据的生成,读者可以参考我上一篇博文: 如何生成100万个无序不重复随机值,谢谢大家!本人菜鸟,不足之处,还请多多指教。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值