什么是布隆过滤器？——超详细解析【建议收藏】

最新推荐文章于 2024-07-24 14:07:28 发布

龙洋静

最新推荐文章于 2024-07-24 14:07:28 发布

阅读量1.9k

点赞数 2

分类专栏：高阶数据结构文章标签：数据结构

本文链接：https://blog.csdn.net/LYJbao/article/details/128598322

版权

高阶数据结构专栏收录该内容

6 篇文章 1 订阅

订阅专栏

4、如何选择哈希函数个数和布隆过滤器长度？

1、什么是布隆过滤器？

布隆过滤器本质上是一种数据结构，是一种巧妙的概率型数据结构，用来高效的插入和查询，是用来告诉使用者某样东西一定不存在或者可能存在。使用多个哈希函数，将一个数据映射到位图结构中。例：

不了解位图吗？看这篇文章： http://t.csdn.cn/M5vmC

2、实现原理

先来回顾哈希函数吧 ~

2.1、回顾哈希函数

2.1.1、哈希函数概念

将任意的输入数据转换成特定的输出数据的函数，转换后的数据称为哈希值或哈希编码，也叫散列值。如图：

2.1.2、散列函数的基本特性：

如果两个散列值是不相同的【同一函数】，那么这两个散列值的原始输入是不同的。这个特性是散列函数具有确定性的结果，具有这种性质的散列函数称为单向散列函数
散列函数的输入和输出不是唯一对应的关系，如果两个散列值相同，两个输入值很可能是相通的，但也可能是不同的，这种情况称为“散列碰撞”。

当我们存储海量数据时，哈希的空间效率很低，当只有一个哈希函数时，很容易发生哈希碰撞~

2.2、布隆过滤器数据结构

布隆过滤器是一个由固定大小的二进制向量或者位图和一系列映射函数所组成的。

在初始状态下，对于一个长度为m的位数组，所有位置0，如下：

当有变量被加入集合时，通过K个映射函数将这个变量映射成位图中的K个点，把它们置为1【举例中以3个映射函数为例】：

查询某个变量的时候，只要这些对应的点是否是都是1：

如果这些点有一个0，则被查询的变量一定不存在
如果都是1，则被查询的变量可能存在

为什么说可能存在，而不是一定存在呢？

那是因为映射函数本身就是散列函数，散列函数就是会有碰撞哒~

3、特点

3.1、支持删除吗？

布隆过滤器不能直接支持删除操作，因为在删除一个元素时，可能会影响其他元素

例：

当我们要删除obj1时，需要将4处置0，而此时obj2的hash3也是映射到4处，就会出现后续的查询有问题~

实现删除方案：

将布隆过滤器中的每个比特位扩展成一个小的计数器，插入元素是给计数器加一，删除元素时，减一【通过占用几倍存储空间来增加删除操作】

此方案的缺点：

无法确认元素是否真正在布隆过滤器中【误判】
存在计数回绕【溢出】

3.2、优点

增加和查询元素的时间复杂度为O(k)【k为哈希函数的个数】，与数据量大小无关
哈希函数相互之间没有关系，方便硬件并行运算
布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有较大优势
在能够承受一定误判时，布隆过滤器比其他数据结构有很大的空间优势
数据量很大时，布隆过滤器可以表示全集，其他数据结构不能
使用同一组散列函数的布隆过滤器可以进行交、并、差运算

3.3、缺点

有误判率，即存在假阳性，即不能准确判断元素是否在集合中【补救：再建立一个白名单，存储可能会误判的数据】
不能获取元素本身
一般情况，不能从布隆过滤器中删除元素

3.4、误判率

布隆过滤器的误判是指多个输入经过哈希之后在相同的bit位置1了，这样就无法判断究竟是哪个输入产生的，因此误判的根源在于相同的 bit 位被多次映射且置 1。

这种情况也造成了布隆过滤器的删除问题，因为布隆过滤器的每一个 bit 并不是独占的，很有可能多个元素共享了某一位。

4、如何选择哈希函数个数和布隆过滤器长度？

需要使用，套公式即可 ~