1 位图
1.1位图的概念
先看例题:给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。
1.遍历,时间复杂度O(N)
2.排序+二分查找
3位图:数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态,那么可以使用一 个二进制比特位来代表数据是否存在的信息,如果二进制比特位为1,代表存在,为0代表不存在。
位图的概念:
位图就是用一个比特位来表示一种状态,适用于海量数据,通常是数据不重复的情况下来判断数据在不在。
1.2 位图的实现
namespace crin
{
template<size_t N>
class bitset
{
public:
bitset()
{
_bits.resize((N >> 5) + 1, 0);
}
void set(size_t x)
{
size_t i = x / 32;
size_t j = x % 32;
_bits[i] |= (1 << j);
}
void reset(size_t x)
{
size_t i = x / 32;
size_t j = x % 32;
_bits[i] &= ~(1 << j);
}
bool test(size_t x)
{
size_t i = x / 32;
size_t j = x % 32;
return _bits[i] & (1 << j);
}
private:
vector<int> _bits;
};
1.3 位图的应用
1. 快速查找某个数据是否在一个集合中
2. 排序 + 去重
3. 求两个集合的交集、并集等
4. 操作系统中磁盘块标记
2、布隆过滤器
布隆过滤器(Bloom Filter)是1970年由布隆提出的,它实际上是由一个很长的二进制向量和一系列随意映射函数组成。
它是一种基于概率的数据结构,主要用来判断某个元素是否在集合内,它具有运行速度快(时间效率),占用内存小的优点(空间效率),但是有一定的误识别率和删除困难的问题。它能够告诉你某个元素一定不在集合内或可能在集合内。
例如一个短视频客户端,每次给客户推送新视频的时候都会筛选出客户看过的视频并去重,那么要如何过滤掉重复的记录呢?
1. 用哈希表存储用户记录,缺点:浪费空间
2. 用位图存储用户记录,缺点:位图一般只能处理整形,如果内容编号是字符串,就无法处理 了。
3. 将哈希与位图结合,即布隆过滤器
2.1布隆过滤器的插入
布隆过滤器可以让一个key映射到多个位置,这样可以减少误判的概率。
代码示例:
struct BKDRHash
{
size_t operator()(const string& key)
{
size_t hash = 0;
for (auto e : key)
{
hash *= 31;
hash += e;
}
return hash;
}
};
struct APHash
{
size_t operator()(const string& key)
{
size_t hash = 0;
for (size_t i = 0; i < key.size(); i++)
{
char ch = key[i];
if ((i & 1) == 0)
{
hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
}
else
{
hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
}
}
return hash;
}
};
struct DJBHash
{
size_t operator()(const string& key)
{
size_t hash = 5381;
for (auto ch : key)
{
hash += (hash << 5) + ch;
}
return hash;
}
};
template<size_t N, class K = string, class hashfun1 = BKDRHash, class hashfun2 = APHash, class hashfun3 = DJBHash>
class BloomFilter
{
public:
void Set(const K& k)
{
int hash1 = hashfun1()(k) % N;
int hash2 = hashfun2()(k) % N;
int hash3 = hashfun3()(k) % N;
_bit.set(hash1);
_bit.set(hash2);
_bit.set(hash3);
}
bool Test(const K& k)
{
int hash1 = hashfun1()(k) % N;
int hash2 = hashfun2()(k) % N;
int hash3 = hashfun3()(k) % N;
if (_bit.test(hash1) == false)
{
return false;
}
if (_bit.test(hash2) == false)
{
return false;
}
if (_bit.test(hash3) == false)
{
return false;
}
return true;
}
private:
crin::bitset<N> _bit;
};
2.2 布隆过滤器的查找
布隆过滤器的思想就是将一个元素使用多个哈希函数来映射到一个位图的不同位置上,因此被映射到的位置的比特 位一定为1。所以可以按照以下方式进行查找:分别计算每个哈希值对应的比特位置存储的是否为 零,只要有一个为零,代表该元素一定不在哈希表中,否则可能在哈希表中。
但是当布隆过滤器说改元素在位图中时,这个元素不一定在这个位图中,因为可能有别的哈希值映射到该位置上,导致布隆过滤器误判。
2.3 布隆过滤器的删除
布隆过滤器不能直接支持删除工作,因为在删除一个元素时,可能会影响其他元素。
因为布隆过滤器存在误判的情况,所以可能有多个元素映射到同一个位置上,如果删除该元素可能会影响别的元素。
2.4 布隆过滤器优点
1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无
关
2. 哈希函数相互之间没有关系,方便硬件并行运算
3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势
4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势
5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能
6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算
2.5 布隆过滤器缺陷
1. 有误判率,即存在假阳性(False Position),即不能准确判断元素是否在集合中(补救方法:再
建立一个白名单,存储可能会误判的数据)
2. 不能获取元素本身
3. 一般情况下不能从布隆过滤器中删除元素
4. 如果采用计数方式删除,可能会存在计数回绕问题