什么问题:如何快速确定在大量数据中是否存在某个数?
我的思考:通常在数据量很小的时候我们可以直接使用暴力破解,也就是循环遍历的方法一个一个
比对,但如果数据量达到百万千万甚至亿级呢?再加上如果程序需要24小时不间断地运
行,那么很明显就会使得时间成本大大增加!
具体案例:有很多不重复的整数,其中最大值是40亿,最小值是0,要求快速判断某个指定的整数
是否在这个集合当中。
一般来说这些数据都是各不相同毫无顺序毫无规律的,而我们为了方便起见,这里将所
有能够被3整除的数作为初始化数据,然后输入某个3的倍数,再判断是否存在进而评判
位图算法构建的成功与否。
算法思路:位图,顾名思义,应该就是和计算机的位运算有关,事实也确实如此,因为1个字节有8
位,40亿个数据就需要40亿/8=5亿字节,因此我们需要先用动态分配开辟出5亿个字节
的内存。5亿字节是什么概念,我们知道1KB=1024B,1MB=1024KB,所以5
亿/1024/1024=476MB,也就是说我们需要消耗约等于476MB的空间来完成这个案例的
算法解决。其实很多时候我们要么用空间换时间要么用时间换空间,这也是位图算法的
精髓所在。那么我们如何标记这些初始化的数据呢?
我们用2个字节(16位)举例,比如有一组数据是0,3,7,8,11,13,15,那么我们可以在相
应位上标记1表示存在该数,如下图:
15 | 14 | 13 | 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 | 0 |
1 | 0 | 1 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 1 |
我们可以将上面看成一个数组,将寻找数值作为数组下标,然后访问该下标对应的位置是否等1,
是就说明存在,同理我们可以假设有个40亿大小的数组,使用上述方法解决问题。
对于下面我实现的算法,有两个关键点,第一个是字节定位,第二个是位与运算,字节定位是
快速跳到查找数值作为下标的位置,比如我们查找8001,那么我需要先跳到8001位,也就是跳到
8001/8=1000字节。位与运算主要是判断某个位置是否有1,比如我们已经跳到1000字节(起始字
节),在这个字节中有8位,那么8001就在这8位中的第二位,于是这个字节的8位就可以表示为
xxxxxx1x,x代表可能是0或者1,利用位移,我们用1<<(8001%8)去和这8位进行与运算就能判断
8001位是不是1,因为1<<(8001%8) ==> 00000001<< 1 ==> 00000010,将两个8位二进制数进行
与运算,xxxxxx1x & 00000010 ==> 00000010,这个二进制结果只要不是0就说明查找的数存在。
#include <iostream>
using namespace std;
//初始化数据
void init(char *data,int len) {
unsigned int n = len * 8;
for (unsigned int i = 0; i < n; i++) {
if (i % 3 == 0) {
char *p = data + i / 8; //字节定位
*p = *p | (1 << (i % 8)); //位或运算
}
}
}
//检测某个数是否存在
void check(char* data, int len) {
int num;
while (1) {
cout << "请输入您要查找的数【输入-1退出】:";
cin >> num;
if (num == -1) {
break;
}
char* p = data + num / 8;
bool ret = *p & (1 << (num % 8)); //位与运算
if (ret) {
cout << num << "在数据集合中!" << endl;
}
else {
cout << num << "不在数据集合中!" << endl;
}
}
}
int main(void) {
unsigned int n = 4000000000; //40亿太大需要无符号整数
int len = n / 8 + 1; //多一位保证健壮性
char* data = new char[len];
memset(data, 0, len); //清零
init(data, len);
check(data, len);
return 0;
}