Bloom Filter 布隆过滤器

Ris Hen

已于 2024-10-07 20:04:43 修改

阅读量397

点赞数 14

分类专栏： C++ 文章标签：哈希算法数据结构散列表

于 2024-10-07 20:00:24 首次发布

本文链接：https://blog.csdn.net/2302_80190394/article/details/142744772

版权

C++ 专栏收录该内容

46 篇文章 0 订阅

订阅专栏

简介

Bloom Filter是一种空间效率极高的概率数据结构，它用于测试一个元素是否属于集合。Bloom Filter的优点是插入和查询操作的时间复杂度都是O(1)，同时它不需要存储元素本身，可以大幅度节省空间。但它的缺点是存在一定的误判率（false positive rate），即可能会错误地判断一个元素属于集合，但绝不会错误地判断一个元素不属于集合。

下面我将用C++语言简单讲解Bloom Filter的实现原理。

Bloom Filter的基本原理

Bloom Filter使用一个很长的位数组（bit array）和几个哈希函数。初始时，位数组所有位都置为0。当要插入一个元素时，该元素会通过几个哈希函数计算出几个哈希值，这些哈希值对应位数组中的位置，然后将这些位置设为1。查询时，同样计算这些哈希值并检查对应位是否为1，如果所有对应位都是1，则可能元素在集合中；如果有任意一位是0，则元素一定不在集合中

实现


namespace bloom_filter
{
	struct BKDRHash
	{
		size_t operator()(const string& key)
		{
			// BKDR
			size_t hash = 0;
			for (auto e : key)
			{
				hash *= 31;
				hash += e;
			}

			return hash;
		}
	};

	struct APHash
	{
		size_t operator()(const string& key)
		{
			size_t hash = 0;
			for (size_t i = 0; i < key.size(); i++)
			{
				char ch = key[i];
				if ((i & 1) == 0)
				{
					hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
				}
				else
				{
					hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
				}
			}
			return hash;
		}
	};

	struct DJBHash
	{
		size_t operator()(const string& key)
		{
			size_t hash = 5381;
			for (auto ch : key)
			{
				hash += (hash << 5) + ch;
			}
			return hash;
		}
	};

	template<size_t N, class K = string,
		    class Hash1 = BKDRHash, 
			class Hash2 = DJBHash,
			class Hash3 = APHash>
	class BloomFilter
	{
	public:
		void set(const K& key)
		{
			size_t hash1 = Hash1()(key) % N;		//需要%N，防止溢出（除留余数法）
			size_t hash2 = Hash2()(key) % N;
			size_t hash3 = Hash3()(key) % N;
			
			_bits.set(hash1);
			_bits.set(hash2);
			_bits.set(hash3);
		
		}

		// 一般不支持删除，删除一个值可能会影响其他值
		// 非要支持删除，也是可以的，用多个位标记一个值，存引用计数
		// 但是这样话，空间消耗的就变大了
		void Reset(const K& key);

		bool Test(const K& key) 
		{
			size_t hash1 = Hash1()(key) % N;		//需要%N，防止溢出（除留余数法）
			size_t hash2 = Hash2()(key) % N;
			size_t hash3 = Hash3()(key) % N;

			if (_bits.test(hash1) && _bits.test(hash2) && _bits.test(hash3))	//存在误判
				return true;

			return false;		//不存在误判
		}

	private:
		bitset<N> _bits;
	};