位图和哈希的综合应用 —— 布隆过滤器

动名词

于 2022-11-11 14:32:19 发布

阅读量338

点赞数

分类专栏：数据结构与算法文章标签：哈希算法算法数据结构

本文链接：https://blog.csdn.net/lyzzs222/article/details/127759968

版权

数据结构与算法专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

前言： 布隆过滤器其实是补充了位图的一个小缺陷。位图的话只可以处理整数，但是大多数情况下，我们不仅要处理整数，还要处理字符串或者是自定义类型的数据。那么还是想利用位图，因为位图比较香嘛。那怎么办？布隆过滤器。

1. 布隆过滤器的概念

位图是好理解的，无非就是一种映射，但是布隆过滤器其实就是结合位图 + 哈希的综合应用。它是将字符串或是自定义对象，转换成可哈希对象，可哈希的对象就是转换为无符号整数，然后再映射到位图中。

那么有个问题：有没有一种可能，一个无符号整数对应了多个字符串，有可能的。不难理解，字符串相当的庞大，数字就那几个。必然会发生一个无符号整数对应多个字符串的情况，这就是误判。那么该如何处理这种情况？

如果映射到一个位置，那么发生误判的情况必然很多，但是我可不可以映射到多个位置？
什么意思？就是字符串转为可哈希对象，有很多算法，我们可以使得一个字符串转换为多个整数，然后映射到位图中，检查一个字符串是否在位图中，要检查多个位置，那么就会大概率的减少误判。但是你说完全能避免误判，那是不太可能的。

画图来理解一下吧：

假如我采用的是-》用一个哈希转换函数，也就是映射到一个比特位：

发生误判就是上述情况，苹果和"sdsdas"映射到了同一个位置，这种情况下，即便你只set了"苹果"，但是你test (“sdsdas”)，发现"sdsdas" 也在，其实它不在。很好理解。
假如我用三个哈希转换函数，来转换这俩个字符串，那么每个字符串就会映射到三个位置：

在这里插入图片描述

我检查"sdsdas" 在不在，我需要查三个位置，是不是误判的情况就减少了呀。

但是存不存在误判？依旧存在，比如:

在这里插入图片描述
看到了吧，如果 “李四” 并没有存入位图，但是位图中有"苹果"，“sdsdas”，它们会把"李四"映射的三个位置给分别占用了，导致误判。

2. 布隆过滤器的实现

有了以上理解，我们就来自己实现一下，布隆过滤器，其实它的原理也不难哈。

#include <bitset>
#include <string>

using namespace std;

struct BKDRHash
{
	size_t operator()(const string& s)
	{
		// BKDR
		size_t value = 0;
		for (auto ch : s)
		{
			value *= 31;
			value += ch;
		}
		return value;
	}
};

struct APHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 0;
		for (long i = 0; i < s.size(); i++)
		{
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ s[i] ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ s[i] ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct DJBHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 5381;
		for (auto ch : s)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};

template<size_t N,
	size_t X = 8,
	class K = string,
	class HashFunc1 = BKDRHash,
	class HashFunc2 = APHash,
	class HashFunc3 = DJBHash>
	class BloomFilter
{
public:
	void Set(const K& key)
	{
		size_t len = X * N;
		size_t index1 = HashFunc1()(key) % len;
		size_t index2 = HashFunc2()(key) % len;
		size_t index3 = HashFunc3()(key) % len;

		_bs.set(index1);
		_bs.set(index2);
		_bs.set(index3);
	}

	bool Test(const K& key)
	{
		size_t len = X * N;
		size_t index1 = HashFunc1()(key) % len;
		if (_bs.test(index1) == false)
			return false;

		size_t index2 = HashFunc2()(key) % len;
		if (_bs.test(index2) == false)
			return false;

		size_t index3 = HashFunc3()(key) % len;

		if (_bs.test(index3) == false)
			return false;

		return true;  // 存在误判的
	}
	
private:
	bitset<X* N> _bs;
};

2.1 模板参数以及其底层结构

#include <bitset>
#include <string>

using namespace std;
template<size_t N,
	size_t X = 8,
	class K = string,
	class HashFunc1 = BKDRHash,
	class HashFunc2 = APHash,
	class HashFunc3 = DJBHash>
	class BloomFilter
	{
	private:
	    bitset<X* N> _bs;	
	};

首先我们要确定一件事: 我们要开辟多大空间的位图，空间的大小开辟，也会影响布隆过滤器的误判率。

这个其实大佬也给出了答案：
在这里插入图片描述
我们的哈希函数个数取三个(k)，插入多少个元素是由我们自己定的(n)，那么开多大的位图(m)，就是我们要算的，m = (k * n)/ln2 ; 所以 m = n * 4.2；位图开的越大，发生误判的概率越小，但是位图空间开的太大，会导致空间浪费；我们模拟的时候，就开辟 X* N个比特位的位图，但是 X = 8 ，8>4.2，也是没问题的，这样误判概率更小。

也就是：

 bitset<X* N> _bs;

接下来，来看一下，模板参数：

template<size_t N,
	size_t X = 8,
	class K = string,
	class HashFunc1 = BKDRHash,
	class HashFunc2 = APHash,
	class HashFunc3 = DJBHash>

N是我要插入元素的个数；X默认給 8；K是要进行哈希变化对象的类型默认给 string就行；
然后就是三个哈希转换函数，这三个哈希函数，感兴趣的可以去研究一下，上面我已经给出代码，就是将字符串转换成无符号整数。

2.2 Set()的实现 -》(插入)

我们要把一个字符串用哈希函数转换为三个无符号整数，然后映射到位图中：

    void Set(const K& key)
	{
		size_t len = X * N;
		size_t index1 = HashFunc1()(key) % len;
		size_t index2 = HashFunc2()(key) % len;
		size_t index3 = HashFunc3()(key) % len;

		_bs.set(index1);
		_bs.set(index2);
		_bs.set(index3);
	}

2.3 Test() -》(检验字符串是否在位图中)

做检验的话，我们要查字符串在位图映射的三个位置。

只要一个位置为0，那么就表示字符串一定没有在位图中
三个位置都是1，表示字符串可能存在(存在误判的)

    bool Test(const K& key)
	{
		size_t len = X * N;
		size_t index1 = HashFunc1()(key) % len;
		if (_bs.test(index1) == false)
			return false;

		size_t index2 = HashFunc2()(key) % len;
		if (_bs.test(index2) == false)
			return false;

		size_t index3 = HashFunc3()(key) % len;

		if (_bs.test(index3) == false)
			return false;

		return true;  // 存在误判的
	}