布隆过滤器（Bloom Filter）

草明

于 2024-10-08 14:31:58 发布

阅读量341

点赞数 8

分类专栏：架构数据结构与算法文章标签：算法数据结构哈希算法

本文链接：https://blog.csdn.net/galoiszhou/article/details/142759019

版权

88 篇文章 3 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

布隆过滤器（Bloom Filter）是一种空间效率极高的概率数据结构，用来判断一个元素是否在集合中。它可以非常快速地判断某个元素“可能存在”或“肯定不存在”，而不会返回“肯定存在”。其核心特点是用较少的空间来实现集合的存在性判断，但它允许一定的误判率。

布隆过滤器的核心结构是一个位数组（bit array）和多个哈希函数。

初始化位数组：创建一个大小为 m 的位数组，并将所有位初始化为 0。
插入元素：
- 当我们要把一个元素插入布隆过滤器时，首先通过 k 个哈希函数对该元素进行哈希计算，得到 k 个不同的位数组索引。
- 将位数组中对应这 k 个索引位置的值设为 1。
查询元素：
- 要查询一个元素是否存在时，布隆过滤器同样通过这 k 个哈希函数对该元素进行哈希计算，得到 k 个位数组索引。
- 检查位数组中这 k 个位置是否都是 1。如果全为 1，说明该元素可能存在；如果有任意一个位置为 0，则说明该元素肯定不存在。

由于位数组中的某些位可能被多个元素的哈希值设置为 1，因此在查询时，可能会出现某个元素不在集合中，但由于哈希冲突导致位数组中的位置都为 1，从而误判该元素存在。这就是布隆过滤器的误判率。

布隆过滤器不会产生假阴性（即实际存在的数据被判断为不存在），但可能产生假阳性（即实际不存在的数据被判断为存在）。

布隆过滤器由于其高效的空间和时间复杂度，非常适合在如下场景中使用：

布隆过滤器的主要优势是使用非常小的空间和时间开销，来提供高效的存在性查询。

布隆过滤器的设计本质上是一个只增不减的数据结构，因此它不支持数据更新或删除，因为一旦将某些位设置为 1，无法确定是哪个元素将它设置为 1 的。具体而言，布隆过滤器的局限在于：

删除的问题：
- 假设你想删除一个元素，需要将该元素对应的 k 个哈希索引位置的位设为 0。
- 然而，这些位可能不仅仅是由这个元素设置为 1 的，还可能是由其他元素设置为 1，因此将这些位改为 0 会影响其他元素的存在判断，导致误判变得更严重。
更新的问题：
- 布隆过滤器无法“更新”一个元素，因为更新通常意味着先删除旧数据再插入新数据。但由于删除数据不可行，更新操作也无法正常执行。

尽管布隆过滤器不直接支持数据更新和删除，但在实际应用中，针对这些场景有几种变通方法可以使用：

原理：将布隆过滤器中的位数组变成一个计数数组，而不是简单的 0/1 位数组。这样每次插入一个元素时，对应的哈希索引处的计数器加 1，每次删除一个元素时，对应的计数器减 1。当计数器的值降为 0 时，可以将该位置视为未被使用。
优点：计数布隆过滤器允许安全删除数据，因为它能够记录每个位置被多少个元素占用。
缺点：计数布隆过滤器需要更多的空间（因为使用的不是位数组，而是计数器数组），并且操作的复杂性也有所增加。