C++：Hash应用【位图与布隆过滤器】

Faiz..

已于 2024-04-15 19:58:11 修改

阅读量550

点赞数 19

分类专栏： C++ 文章标签： c++ 哈希算法开发语言

于 2024-04-15 19:52:34 首次发布

本文链接：https://blog.csdn.net/decade777555/article/details/137506158

版权

C++ 专栏收录该内容

30 篇文章 2 订阅

订阅专栏

什么是位图？

我们先来看一个问题：
给40亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在
这40亿个数中。【腾讯】
如果我们使用unordered_set容器来解决，40亿个数据，每个数据占4个字节，那么一共需要16G内存，对于内存消耗太大了，而如果存储的不是整形数据，那么只会消耗更大。

这个时候我们可以引出位图，每个整数是否存在可以使用一个对应比特位的0或者1来表示，这样原来32位才能表示一个数，现在只需要1位就可以解决，40亿个数据只需要0.5G。

位图：

位图是一种用于表示集合的数据结构，通常用一个二进制数组来表示。每个元素在位图中对应于数组中的一个位（bit），位图中的每一位表示集合中的一个元素是否存在。
位图通常用于处理大量的布尔型数据，例如标记某些元素是否出现过，或者记录某些状态的信息。由于位图中的每一位只占用一个比特（bit），因此它可以非常紧凑地表示大量的信息。
位图在存储和检索方面的效率都非常高，但是它的缺点是无法直接支持范围查询，只能用于表示离散的集合。

位图的模拟实现

我们先来看一下库中实现的位图
在这里插入图片描述
我们接下来主要实现位图中三个主要的功能函数

1.set
将一个数据放入位图
2.reset
将一个数据移出位图
3.test
检测一个数据在不在位图中
在这里插入图片描述
如上图所示，假如以一个字节为单位，那么which/8就是在第几块中，which%8就是在第几块的第几位。改变对应比特位上的0或1就可以表示该元素是否存在。

模拟实现代码


```cpp
#pragma once
template<size_t N>
class bitset
{
public:
	bitset(size_t bitcount=N)
		:_bits((bitcount>>5)+1,0)  //为vector数组开辟大小初始化
	{
	}

	void set(size_t which)
	{
		if (which > N)
			return;
		size_t i = which >> 5;
		size_t pos = which % 32;
		_bits[i] |= (1 << pos);//将对应的比特位置为1
	}
	void reset(size_t which)
	{
		if (which > N)
			return;
		size_t i = which >> 5;
		size_t pos = which % 32;
		_bits[i] &= ~(1 << pos);//将对应的比特位置为0
	}

	bool test(size_t which)
	{
		if (which > N)
			return false;
		size_t i = which >> 5;
		size_t pos = which % 32;
		return _bits[i] & (1 << pos);//如果不存在则结果为0，如果存在则非0
	}
private:
	vector<int> _bits;
};

布隆过滤器

用哈希表存储用户记录，缺点：浪费空间
用位图存储用户记录，缺点：位图一般只能处理整形，如果内容编号是字符串，就无法处理了。
将哈希与位图结合，即布隆过滤器布隆过滤器（Bloom Filter）是一种数据结构，用于判断一个元素是否可能存在于一个集合中。它通过利用一系列哈希函数和一个位数组来实现快速的成员存在查询。

具体来说，布隆过滤器通常包含以下几个要素：

一个位数组（通常用0和1表示），长度为m，初始化时所有位都被置为0。
一组哈希函数，用于将元素映射到位数组的不同位置。

在将一个元素加入布隆过滤器时，该元素会经过多个哈希函数的映射，对应的位数组位置被置为1。在查询一个元素是否存在于布隆过滤器时，同样进行多次哈希映射，若所有映射对应的位都为1，则说明该元素可能存在于集合中，若存在任何一个位为0，则可以确定该元素不存在于集合中。
在这里插入图片描述
如上图所示，假设有三个哈希函数，映射出三个比特位，孙悟空与孙行者各自对应三个，而这些比特位有可能重合，所以比特位为1不一定在，而比特位为0一定不在。

也就是说，如果该元素映射的所有位都为1，则该元素不一定在；
如果所有映射位中有一个为0，则该元素一定不在。

布隆过滤器的模拟实现

首先我们先来选择几个哈希映射函数：

//三个不同的将字符串映射成整数的函数
struct HashBKDR
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (auto ch : key)
		{
			val *= 131;
			val += ch;
		}
		return val;
	}
};
struct HashAP
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			if ((i & 1) == 0)
				hash ^= ((hash << 7) ^ key[i] ^ (hash >> 3));
			else
				hash ^= (~((hash << 11) ^ key[i] ^ (hash >> 5)));
		}
		return hash;
	}
};
struct HashDJB
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
			hash += (hash << 5) + ch;
		return hash;
	}
};

布隆过滤器模拟实现
布隆过滤器的实现还是基于位图实现的，不过是把字符串映射为size_t的key值。

template<size_t N,class K=string,class Hash1=HashAP,class Hash2=HashBKDR,class Hash3=HashDJB>
class bloomfilter
{
public:
	void set(const K& str)
	{
		size_t hash1 = Hash1()(str) % (_ratio * N);
		_bits->set(hash1);
		size_t hash2 = Hash2()(str) % (_ratio * N);
		_bits->set(hash2);
		size_t hash3 = Hash3()(str) % (_ratio * N);
		_bits->set(hash3);
	}

	//支持删除可能会删除其他值
	/*void reset(const K& str)
	{
		size_t hash1 = Hash1(str) % (_ratio * N);
		_bits->reset(hash1);
		size_t hash2 = Hash2(str) % (_ratio * N);
		_bits->reset(hash2);
		size_t hash3 = Hash3(str) % (_ratio * N);
		_bits->reset(hash3);
	}*/

	bool test(const K& str)
	{
		size_t hash1 = Hash1()(str) % (_ratio * N);
		if (!_bits->test(hash1))
		{
			return false;
		}
		size_t hash2 = Hash2()(str) % (_ratio * N);
		if (!_bits->test(hash2))
		{
			return false;
		}
		size_t hash3 = Hash3()(str) % (_ratio * N);
		if (!_bits->test(hash3))
		{
			return false;
		}
		return true;
	}


private:
	const static size_t _ratio = 5;//空间开的越大，误判率越小
	wjc::bitset<_ratio*N>* _bits=new wjc::bitset<_ratio*N>;
};

以上就是布隆过滤器的模拟实现
布隆过滤器的优点在于其空间效率和查询速度都很高，但缺点是可能存在误判，即布隆过滤器判断某个元素存在于集合中，但实际上并不存在（false positive）。这种误判的概率可以通过合适选择位数组长度和哈希函数数量来控制。

布隆过滤器可以从以下几个方面优化：

1.选择合适的哈希函数：
哈希函数的选择对布隆过滤器的性能影响很大。理想的哈希函数应该具有良好的均匀性，能够将元素均匀地映射到位数组的各个位置，从而降低碰撞的概率。常见的哈希函数包括MurmurHash、MD5和SHA等。

2.适当调整位数组长度：增加位数组的长度可以降低误判率，但也会增加内存消耗。根据误判率的要求和可用内存的限制，选择适当的位数组长度。

3.增加哈希函数数量：
使用多个独立的哈希函数可以减少冲突的概率，进而降低误判率。但增加哈希函数数量也会增加计算成本。通常情况下，选择适量的哈希函数数量以在减少误判的同时保持较低的计算成本。

4.监控和调整误判率：在实际应用中，可以通过监控布隆过滤器的误判率来评估其性能，并根据需要调整位数组长度和哈希函数数量以达到最优性能。

5.考虑动态调整：在一些场景中，集合的特征可能随时间变化，可以考虑动态地调整布隆过滤器的参数，以适应集合的变化。