首先先看一下下面这个腾讯的面试题:
-
给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。 【腾讯】
-
位图(BitMap)
是用一个数组中的每个数据的每个二进制位表示一个数是否存在。1表示存在,0表示不存在。
相当于把数组分成很多块的空间,每一块是32个比特位。
原来32个比特位放一个数据,现在一个位就可以放一个数据。16GB/32=0.5GB=512MB。
思路一:
最容易想到的解法就是遍历所有的40多亿个整数,然后一个一个判断。但是这个需要花费的内存是多大呢?
大家可以去算一下,这里我就直接给出结果为16G,是不是需要的空间很大啊。如果面试官给出限制条件,要你使用的空间少于多少,遍历的方法就行不通啦。
思路二:
我们可以把一个整形再细分一下,一个int类型就可以编程32个位,每一位用0,1表示当前这个位置上是否存有值,同样是利用哈希存储的方法。只是这样存储的话就可以减少很多的空间了,例如上题使用的内存就可以从16G降到500M的内存。空间的使用率减少了不止一点。
位图的实现
#include<iostream>
#include<stdio.h>
#include<vector>
using namespace std;
class bitmap
{
public:
bitmap(size_t size=0)
:_size(0)
{
_bm.resize((size>>5)+1);
}
void set(size_t x)
{
size_t index=x>>5;
size_t n=x%32;
if(0==(_bm[index]&(1<<n)))
{
_size++;
_bm[index]|=(1<<n);
}
}
void reset(size_t x)
{
size_t index=x>>5;
size_t n=x%32;
if(1==((_bm[index])&(1<<n)))
{
_size--;
_bm[index]&=~(1<<n);
}
}
bool test(size_t x)
{
size_t index=x>>5;
size_t n=x%32;
if(_bm[index]&(1<<n))
{
return true;
}
false;
}
void Resize(size_t size)
{
_bm.resize((size >> 5) + 1);
}
size_t Size()
{
return _size;
}
private:
vector<size_t> _bm;
size_t _size;//位图中插入元素的个数
};