布隆过滤器

1.布隆过滤器的提出

  位图适用于在海量无重复的数据中对单个数据的存在进行判断,但仅限于整数类型,那么对于其他类型的海量数据,比如字符串,我们如何判断某个字符串是否存在其中呢?

  小布在看抖音视频时,抖音会不停地给他推荐新的内容,它每次推荐都要去掉那些已经看过的视频。

  问题来了,抖音APP的推荐系统是如何实现推送去重的?用服务器记录了用户看过的所有历史记录?当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选?过滤掉那些已经存在的记录?如何快速查找呢?(本节主要研究最后一个问题)

1. 用哈希表存储用户记录,缺点:浪费空间

2. 用位图存储用户记录,缺点:位图一般只能处理整形,如果内容编号是字符串,就无法处理了。

3. 将哈希与位图结合,即布隆过滤器。

2.布隆过滤器的概念

位图只能处理整形数据,那么我们可以将其他类型的数据映射成整形吗?当然可以。

  在位图中,整形数据和bit位是一一映射,那么将其他类型的数据映射成整形,最好也是一一映射。但整形变量的大小是有范围的,比如unsigned long long,变量的取值区间是[0,2^64-1],可取一千多万亿个数,而其他类型的变量范围,比如string,一个字母分大小写可取52种,假设string长度为20,52^20远远大于2^62,所以将海量的字符串映射成整形,可能会造成哈希冲突,多个字符串对应一个整形变量。

  具体问题具体分析,具体分析的方法可以类比到同类型的具体问题解决中。我们以字符串为例,将海量的字符串变量映射成整形变量,可能会造成哈希冲突,但对于我们的目的——判断字符串是否存在是否有影响呢?

由于多个字符串可能映射成同一个整形变量,所以我们无法准确地判断字符串是否存在,但可以准确地判断不存在。比如下图中的"insert"和"apple"都映射成2233,我们调用位图中的检测函数,如果2233对应的bit位为1,检测函数返回为真,我们无法准确判断"insert"和"apple"是否都存在还是只存在一个,如果检测函数返回假,则可断定两个字符串都不存在。

综上,对于非整数类型的海量数据,我们可以先将这些数据通过哈希函数映射成无重复的整数集,再利用位图,判断要检测的数据是否存在。而布隆过滤器,就是布隆提出的一种数据结构,它的算法思想就是哈希+位图,能够高效的插入和查询,不能准确的判断某个元素的存在,可以准确的判断某个元素不存在。也就是说,布隆过滤器适用于处理需要高效插入和查询,可以接受存在误判的海量数据集。

那么针对布隆过滤器对数据存在不确定性的判断,我们有没有可以优化的地方呢?

有,可以一个值映射多个bit位,用多个哈希函数,将原数据集中每个元素映射成多个整形变量,插入该元素时,该元素映射成的多个变量对于的bit位置1,查询该元素是否存在时,通过检查元素映射成的多个变量对于的bit位,如果bit位都为1,则增加了该元素存在的概率。(注意:多个哈希函数,但只有一个位图,单个数据通过多个哈希函数映射成多个整形变量插入同一个位图)

3.布隆过滤器的实现

在实现布隆过滤器前,有两点我们必须要弄懂:

1.我们要知道如何将原数据集利用哈希函数映射成整形集,同时,要用多少个哈希函数才能达到我们可以接受的误判率;

2.我们要清楚开多大的空间,知道数据集映射后的整形集要占多少位bit,然后将所占位数的近似数(大于所占位数)传入布隆过滤器中,本质上是让位图知道要开辟多少个bit位,让bit位数足以和整形集的元素一一映射。

换言之,在实现布隆过滤器前,该如何选择哈希函数个数和布隆过滤器长度(长度单位:bit),才能有效地降低误报率呢?

可以参考:详解布隆过滤器的原理,使用场景和注意事项 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/43263751/具体地实现:

bitset.h链接:位图/位图/bitset.h · fyehong/cpp - 码云 - 开源中国 (gitee.com)

bloom_filter.h

#pragma once
#include "bitset.h"
struct BKDRHash
{
	size_t operator()(const string& key)
	{
		// BKDR
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 31;
			hash += e;
		}

		return hash;
	}
};

struct APHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			char ch = key[i];
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct DJBHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};

//N表示要存储数据的个数(一般比这个值大)
template<size_t N,class K = string,
	class HashFunc1 = BKDRHash,
	class HashFunc2 = APHash,
	class HashFunc3 = DJBHash>
class BloomFilter
{
public:
	//将K映射成三个整形变量后插入位图中
	void Set(const K& key)
	{
		size_t hashi1 = HashFunc1()(key) % N;
		size_t hashi2 = HashFunc2()(key) % N;
		size_t hashi3 = HashFunc3()(key) % N;

		_bs.set(hashi1);
		_bs.set(hashi2);
		_bs.set(hashi3);

		/*cout << hashi1 << endl;
		cout << hashi2 << endl;
		cout << hashi3 << endl << endl;*/
	}
	//检测对应的bit位是否为真,如果都为真,则概率性为真
	//有一个为假,则真假
	bool Test(const K& key)
	{

		size_t hash1 = HashFunc1()(key) % N;
		if (_bs.test(hash1) == false)
			return false;

		size_t hash2 = HashFunc2()(key) % N;
		if (_bs.test(hash2) == false)
			return false;

		size_t hash3 = HashFunc3()(key) % N;
		if (_bs.test(hash3) == false)
			return false;

		//存在误判
		return true;
	}

	//一般不支持删除,因为删除一个值,会影响其他值
	//如果非要支持删除的话,可以采用"引用技术",比如用3个bit来标记映射位(替代原来的1个bit位),
	//这样一个映射位最多容纳8个不同数据的映射,每映射一次++,删除就--。
	//但会带来空间消耗
	void Reset(const K& key);

private:
	yls::bitset<N> _bs;
};

void TestBF1()
{
	BloomFilter<100> bf;
	bf.Set("猪八戒");
	bf.Set("沙悟净");
	bf.Set("孙悟空");
	bf.Set("二郎神");

	cout << bf.Test("猪八戒") << endl;
	cout << bf.Test("沙悟净") << endl;
	cout << bf.Test("孙悟空") << endl;
	cout << bf.Test("二郎神") << endl;
	cout << bf.Test("二郎神1") << endl;
	cout << bf.Test("二郎神2") << endl;
	cout << bf.Test("二郎神 ") << endl;
	cout << bf.Test("太白晶星") << endl;
}

//测试误判率
void TestBF2()
{
	srand(time(0));
	const size_t N = 100000;
	BloomFilter<N * 30> bf;

	std::vector<std::string> v1;
	//std::string url = "https://www.cnblogs.com/-clq/archive/2012/05/31/2528153.html";
	std::string url = "猪八戒";

	for (size_t i = 0; i < N; ++i)
	{
		v1.push_back(url + std::to_string(i));
	}

	for (auto& str : v1)
	{
		bf.Set(str);
	}

	// v2跟v1是相似字符串集(前缀一样),但是不一样
	std::vector<std::string> v2;
	for (size_t i = 0; i < N; ++i)
	{
		std::string urlstr(url);
		urlstr += std::to_string(9999999 + i);
		v2.push_back(urlstr);
	}

	size_t n2 = 0;
	for (auto& str : v2)
	{
		if (bf.Test(str)) // 误判
		{
			++n2;
		}
	}
	cout << "相似字符串误判率:" << (double)n2 / (double)N << endl;

	// 不相似字符串集
	std::vector<std::string> v3;
	for (size_t i = 0; i < N; ++i)
	{
		//string url = "zhihu.com";
		string url = "孙悟空";
		url += std::to_string(i + rand());
		v3.push_back(url);
	}

	size_t n3 = 0;
	for (auto& str : v3)
	{
		if (bf.Test(str))
		{
			++n3;
		}
	}
	cout << "不相似字符串误判率:" << (double)n3 / (double)N << endl;
}
//总结:开的空间越大,误判率越小

test.cpp:

#include<iostream>
#include<vector>
#include<string>
using std::cout;
using std::endl;
using std::string;
using std::vector;

#include "BloomFilter.h"
int main()
{
	TestBF2();
	
	return 0;
}

4.布隆过滤器的删除

实现布隆过滤器删除的接口,可以采用“引用计数”的方法,但在删除某个元素前,一定要确保该元素存在原数据集合中。

“引用计数”增删:将布隆过滤器中的每个比特位扩展成一个小的计数器,插入元素时给k个计数器(k个哈希函数计算出的哈希地址)加一,删除元素时,给k个计数器减一,通过多占用几倍存储空间的代价来增加删除操作。

5.布隆过滤器的优点

1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无关

2. 哈希函数相互之间没有关系,方便硬件并行运算

3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势

4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势

5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能

6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算

6.布隆过滤器的缺点

1. 有误判率,即存在假阳性(False Position),即不能准确判断元素是否在集合中(补救方法:再建立一个白名单,存储可能会误判的数据)

2. 不能获取元素本身

3. 一般情况下不能从布隆过滤器中删除元素

4. 如果采用计数方式删除,可能会存在计数回绕问题

7.布隆过滤器的应用

问题:给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?

此图参考:······

关于删除:Counting Bloom Filter 的原理和实现-腾讯云开发者社区-腾讯云 (tencent.com)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值