位图
位图其实也就是哈希的思想,就是用每一位来存放某种状态,通常是用来判断某个数据存不存在的。数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态,那么可以使用一个二进制比 特位来代表数据是否存在的信息,如果二进制比特位为1,代表存在,为0代表不存在。
位图的模拟实现
class BitSet
{
public:
BitSet(const size_t& bitCount)
:_bitCount(bitCount)
{
_bit.resize((bitCount >> 5) + 1, 0);
}
void set(const size_t& num)
{
//index表示在哪个字节;pos表示在字节的第几位
size_t index = num >> 5;
size_t pos = num % 32;
_bit[index] |= (1 << pos);
}
void reset(const size_t& num)
{
size_t index = num >> 5;
size_t pos = num % 32;
_bit[index] &= ~(1 << pos);
}
bool test(const size_t& num)
{
size_t index = num >> 5;
size_t pos = num % 32;
return _bit[index] & (1 << pos);
}
private:
vector<int> _bit;
size_t _bitCount;
};
位图是根据数据的范围来开位的,不是根据数据个数来开位的。
位图练习题目
1、给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数 中。
题目分析:40亿个整数大约是16G
上图两种方法都不行,都面临着O(N)的空间复杂度,主要是因为内存不够,因为需要将16G的数据加载到内存中。所以采用位图来解决,直接开2^32个位==500M。通过set将所有数据映射的位置1,然后通过test来检测某一个数据是否存在。
2、给定100亿个整数,设计算法找到只出现一次的整数?
题目分析:位图只能判断在不在,不能统计次数,为了解决问题,该如何处理?
- 方法一:将位图进行改进,可以把每个值映射两个位,把整数出现的次数分为三种状态(00:出现0次、01:出现一次、10:出现两次及以上)
- 方法二:用两个位图
3、给定100亿个整数,设计算法找到只出现一次的整数?
4、个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数
该题同上述第三题类似。set完毕之后进行test,如果是 00或者10说明该整数出现次数不超过2次。
布隆过滤器
布隆过滤器就是哈希与位图的一个结合,它是通过多个哈希函数将数据映射到位图结构中,即一个数据会映射到位图当中的多个位置。
-
布隆过滤器的插入
-
布隆过滤器的查找
布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中,因此被映射到的位置的比特位一定为1。 所以可以按照以下方式进行查找:分别计算每个哈希值对应的比特位置存储的是否为零,只要有一个为零, 代表该元素一定不在哈希表中,否则可能在哈希表中。
注意:布隆过滤器判断出某个元素不存在时,该元素一定不存在,如果该元素存在时,该元素可能存在,因 为有些哈希函数存在一定的误判。比如:在布隆过滤器中查找"alibaba"时,假设3个哈希函数计算的哈希值为:1、3、7,刚好和其他元素的比 特位重叠,此时布隆过滤器告诉该元素存在,但实该元素是不存在的。(所以说不在一定是准确的,在可能是准确的)。 -
布隆过滤器的删除
通常来说,布隆过滤器不能直接支持删除工作,因为在删除一个元素时,可能会影响其他元素。一种支持删除的方法:将布隆过滤器中的每个比特位扩展成一个小的计数器(可以扩展成一个char 或 int),set元素时给k个计数器(k个哈希函数计算出的哈希地址)加一,reset元素时,给k个计数器减一,通过多占用几倍存储空间的代价来增加删除操作。
布隆过滤器练习题目
1、给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和 近似算法 。
-
近似算法
将其中一个A文件的所有query放到一个布隆过滤器当中,然后再依次读出另外一个B文件当中的query判断在不在布隆过滤器当中,如果在的话就是交集。这样做带来的问题:会存在一定的误判率,可能B文件query x并不存在A文件中,但是A中其他的query可能映射到x 的位置导致将query x 误判成为交集。
-
精确算法(采用哈希切割)
2、给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 与上题条件相同, 如何找到top K的IP? (采用哈希切割)