位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的。
给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。
- 方案一:排序+二分查找
- 方案二:将40亿多的数据放进set或unordered_set中,在进行查找
这两个方案存在一个致命的缺陷——40亿个数据量太大内存存不下
- 方案三:数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态,那么可以使用一个二进制比特位来代表数据是否存在的信息,如果二进制比特位为1,代表存在,为0代表不存在。这样就可以节省内存消耗,用比特位的位图来进行映射
- 方案四:利用除留余数法将40亿的数据放在0.txt、1.txt……这样的文件里(可以放在内存里),这样给一个数,就可以根据除留余数法找到相应的文件,从而用set、unordered_set对文件中的数据进行插入,最后用该数判断是否存在40亿数据中
补充:
1G=1024MB
1MB=1024KB
1KB=1024byte
1byte=8bit
1G大约是10亿个字节
位图的实现
template<size_t N>
class bitset
{
public:
bitset()
{
_bits.resize(N / 8 + 1, 0);
}
bool test(size_t x)
{
size_t i = x / 8;
size_t j = x % 8;
//return _bits[i] & (1 << j);
return ((_bits[i] & (1 << j)) == 0) ? false : true;
}
void set(size_t x)
{
size_t i = x / 8;
size_t j = x % 8;
_bits[i] |= (1 << j);
}
void reset(size_t x)
{
size_t i = x / 8;
size_t j = x % 8;
_bits[i] &= (~(1 << j));
}
private:
vector<char> _bits;
};
位图的应用
- 快速查找某个数据是否在一个集合中
- 排序
- 求两个集合的交集、并集等
- 操作系统中磁盘块标记
- 给定100亿个整数,设计算法找到只出现一次的整数?
这道题跟上面的题类似,利用位图解决:找出只出现一次的整数(无非有三种情况:0次、1次、2次及以上)
template<size_t N>
class FindOnceValSet
{
public:
void set(size_t x)
{
if (_bs1.test(x) == false && _bs2.