布隆过滤器

最新推荐文章于 2024-09-11 19:54:50 发布

NuyoahC

最新推荐文章于 2024-09-11 19:54:50 发布

阅读量622

点赞数 16

分类专栏： C/C++ 文章标签：哈希算法 c++ 笔记

本文链接：https://blog.csdn.net/m0_74317866/article/details/140345128

版权

C/C++ 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

文章目录

布隆过滤器提出
布隆过滤器概念
布隆过滤器的插入
布隆过滤器的查找
布隆过滤器优点
布隆过滤器缺陷

布隆过滤器提出

我们在使用新闻客户端看新闻时，它会给我们不停地推荐新的内容，它每次推荐时要去重，去掉
那些已经看过的内容。问题来了，新闻客户端推荐系统如何实现推送去重的？用服务器记录了用
户看过的所有历史记录，当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选，过滤掉那
些已经存在的记录。如何快速查找呢？

用哈希表存储用户记录，缺点：浪费空间
用位图存储用户记录，缺点：位图一般只能处理整形，如果内容编号是字符串，就无法处理
了。
将哈希与位图结合，即布隆过滤器

布隆过滤器概念

布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的概
率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存
在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也
可以节省大量的内存空间。

在这里插入图片描述
布隆过滤器使用三个哈希函数进行映射，那么“baidu”这个昵称被使用后位图中会有三个比特位会被置1；
当有人使用“字节”这个昵称时，使用三个哈希函数进行映射发现位置都不冲突；
则“字节”这个昵称没有被使用过。

布隆过滤器的插入

提供一个Set接口，用于插入元素到布隆过滤器当中。插入元素时，需要通过三个哈希函数分别计算出该元素对应的三个比特位，然后将位图中的这三个比特位设置为1即可。

void Set(const K& key)
{
	size_t i1 = Hash1()(key) % N;
	size_t i2 = Hash2()(key) % N;
	size_t i3 = Hash3()(key) % N;


	_bs.set(i1);
	_bs.set(i2);
	_bs.set(i3);
}

字符串转换为整数的三种不同的方法

struct BKDRHash
{
	size_t operator()(const string& s)
	{
		size_t value = 0;
		for (auto ch : s)
		{
			value = value * 131 + ch;
		}
		return value;
	}
};
struct APHash
{
	size_t operator()(const string& s)
	{
		size_t value = 0;
		for (size_t i = 0; i < s.size(); i++)
		{
			if ((i & 1) == 0)
			{
				value ^= ((value << 7) ^ s[i] ^ (value >> 3));
			}
			else
			{
				value ^= (~((value << 11) ^ s[i] ^ (value >> 5)));
			}
		}
			
		return value;
	}
};

struct DJBHash
{
	size_t operator()(const string& s)
	{
		if (s.empty())
			return 0;
			
		size_t value = 5381;
		for (auto ch : s)
		{
			value += (value << 5) + ch;
		}
		
		return value;
	}
};

布隆过滤器的查找

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特
位一定为1。所以可以按照以下方式进行查找：分别计算每个哈希值对应的比特位置存储的是否为
零，只要有一个为零，代表该元素一定不在哈希表中，否则可能在哈希表中。
注意：布隆过滤器如果说某个元素不存在时，该元素一定不存在，如果该元素存在时，该元素可
能存在，因为有些哈希函数存在一定的误判。