一、题目
. 给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。
二、解题思路
1、方法一;(直接遍历)
将这些数字加载到内存中直接进行遍历,但是这种方法需要很大的内存空间,存入40亿个int类型的数字,大概需要开辟的内存大小大概是15G
2、.方法二:(利用哈希表)
利用哈希表可以直接进行定位,并且可以每个数字开辟一个char类型直接进行标记即可(但是开辟的个数也为int类型数字所包括的数字的个数),但是这也需要4G大小的空间
3、方法三:(位图)
其实和方法二很想,只是方法二的思维局限在了以字节为单位,其实只是需要标记这个数字是否存在其实用一个bit位即可,这个便是位图
三、位图
1、函数声明
class BitMap
{
public:
BitMap(size_t size);
void Set(size_t x);//设置
void Reset(size_t x);//移除
bool Test(size_t x);//是否在其中
size_t Size();//有效元素的个数
protected:
vector<size_t> _a;
size_t _size;//有效元素的个数,也就是存储元素的个数
};
2、函数的定义
(1)设置(或标记)
void Set(size_t x)//设置
{
size_t index = x >> 5;
size_t num = x % 32;
if (!(_a[index] & (1 << num)))
{
++_size;//_size的值的含义为位图中以及存储的数据个数
_a[index] |= (1 << num);
}
}
(2)移除
void Reset(size_t x)//移除
{
size_t index = x >> 5;
size_t num = x % 32;
if (_a[index] & (1 << num))
{
--_size;//_size的值的含义为位图中以及存储的数据个数
_a[index] &= (~(1 << num));
}
}
(3)是否存在
bool Test(size_t x)
{
size_t index = x >> 5;
size_t num = x % 32;
return (_a[index] & (1 << num)) != 0;
}
(4)有效数据的个数
size_t Size()
{
return _size;
}
测试用例如下:
void TestBitMap()
{
BitMap bm(100);
bm.Set(5);
bm.Set(4);
cout << "Is 4 Exists?" << bm.Test(4) << endl;
cout << "Is 5 Exists?" << bm.Test(5) << endl;
cout << "Is 6 Exists?" << bm.Test(6) << endl;
bm.Reset(5);
cout << "Is 5 Exists?" << bm.Test(5) << endl;
}
三、位图的应用--布隆过滤器
将在下一篇博客中做简单介绍