BloomFilter算法

最新推荐文章于 2020-08-29 23:59:14 发布

weixin_34008933

最新推荐文章于 2020-08-29 23:59:14 发布

阅读量77

点赞数

文章标签：数据结构与算法

Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构，它具有很好的空间和时间效率，被用来检测一个元素是不是集合中的一个成员。如果检测结果为是，该元素不一定在集合中；但如果检测结果为否，该元素一定不在集合中。因此Bloom filter具有100%的召回率。这样每个检测请求返回有“在集合内（可能错误）”和“不在集合内（绝对不在集合内）”两种情况，可见 Bloom filter 是牺牲了正确率和时间以节省空间。

优缺点

Bloom filter 优点就是它的插入和查询时间都是常数，另外它查询元素却不保存元素本身，具有良好的安全性。它的缺点也是显而易见的，当插入的元素越多，错判“在集合内”的概率就越大了，另外 Bloom filter 也不能删除一个元素，因为多个元素哈希的结果可能在 Bloom filter 结构中占用的是同一个位，如果删除了一个比特位，可能会影响多个元素的检测。

BitMap 与 BloomFilter 的区别

BloomFilter 算法其实是在 BitMap 算法的基础上用多个哈希函数进行哈希，以此来降低发生误判（哈希冲突）的几率，但是从理论上来说还不能 100% 正确判断。BitMap 算法只要哈希值所对应的下标为 1 就认为已经重复了，但是 BloomFilter 则必须要多个哈希值所对应的下标为 1 才认为是存在了。

BitMap 与 BloomFilter 可能产生的误差

BitMap 与 BloomFilter 都用来检测重复。从另一个角度想，也就是来检测是否包含某一元素。BitMap 和 BloomFilter 产生误差的来源主要是来源于哈希碰撞。当数组下标修改的值越来越多，BitMap 算法和 BloomFilter 算法发生误判的可能性越大。

下面是一个简单的 Bloom filter 结构，开始时集合内没有元素

当来了一个元素 a，进行判断，这里哈希函数有两个，计算出对应的比特位上为 0 ，即是 a 不在集合内，将 a 添加进去：

之后的元素，要判断是不是在集合内，也是同 a 一样的方法，只有对元素哈希后对应位置上都是 1 才认为这个元素在集合内（虽然这样可能会误判）：

随着元素的插入，Bloom filter 中修改的值变多，出现误判的几率也随之变大，当新来一个元素时，满足其在集合内的条件，即所有对应位都是 1 ，这样就可能有两种情况，一是这个元素就在集合内，没有发生误判；还有一种情况就是发生误判，出现了哈希碰撞，这个元素本不在集合内。

可以说出现误判的几率是：哈希碰撞的几率 + 出现在值为 1 的位置上的几率。上面出现在值为 1 上的概率是 3/7，假设发生哈希碰撞的几率是 1/100，那么发生误判的几率就是：3/700。

1、Bloom Filter_百度百科

2、解释 BloomFilter 的一篇很好的博文

weixin_34008933

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BloomFilter算法

Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构，它具有很好的空间和时间效率，被用来检测一个元素是不是集合中的一个成员。如果检测结果为是，该元素不一定在集合中；但如果检测结果为否，该元素一定不在集合中。因此Bloom filter具有100%的召回率。这样每个检测请求返回有“在集合内（可能错误）”和“不在集合内（绝对不在集合内）”两种情况，可见 B...
复制链接

扫一扫