BloomFilter算法

最新推荐文章于 2023-03-03 11:42:44 发布

TravelSir

最新推荐文章于 2023-03-03 11:42:44 发布

阅读量244

点赞数

分类专栏：算法文章标签：哈希算法算法

本文链接：https://blog.csdn.net/qq_30855667/article/details/125198098

版权

算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

如何判断一个元素是否存在于集合里？

常见的一些解决办法有:

遍历集合(数组，链表，树)
哈希表

但是随着集合中元素的增加，我们需要的存储空间越来越大，检索速度也越来越慢。

遍历集合的时间成本高，时间复杂度再O(n)到O(logn)不等

而哈希表也存在问题，当元素越来越多，哈希冲突也会越严重，从而影响查询效率。

而布隆过滤则是一种时间空间都有巨大优化的算法

基础介绍

布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量(位图)和一系列随机映射函数（哈希函数）。

布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

多Hash位图实现

布隆过滤器其中重要的实现就是位图的实现，也就是位数组，并且在这个数组中每一个位置只占有1个bit，而每个bit只有0和1两种状态。如上图bitarray所示！bitarray也叫bitmap，大小也就是布隆过滤器的大小。

假设一种有k个哈希函数，且每个哈希函数的输出范围都大于m，接着将输出值对k取余（%m）,就会得到k个[0, m-1]的值，由于每个哈希函数之间相互独立，因此这k个数也相互独立，最后将这k个数对应到bitarray上并标记为1。

等判断时，将输入对象经过这k个哈希函数计算得到k个值，然后判断对应bitarray的k个位置是否都为1（是否标黑），如果有一个不为1，那么这个输入对象则不在这个集合中，如果都是1，那说明在集合中，但有可能会误，由于当输入对象过多，而集合也就是bitarray过小，则会出现大部分为1的情况，那样就容易发生误判！因此使用布隆过滤器是需要容忍错误率的，即使很低很低！

布隆过滤器重要参数计算

如果输入量过大，而bitarray空间的大小又很小，那么误判率就会上升。

设bitarray大小为m，样本数量为n，需要的hansh函数个数为k，失误率为p。计算公式如下：（小数向上取整）

注意：由于我们计算的m和k可能是小数，那么需要经过向上取整，此时需要重新计算误判率p！

常见应用场景

cerberus在收集监控数据的时候, 有的系统的监控项量会很大, 需要检查一个监控项的名字是否已经被记录到db过了, 如果没有的话就需要写入db.
爬虫过滤已抓到的url就不再抓，可用bloom filter过滤
垃圾邮件过滤。如果用哈希表，每存储一亿个 email地址，就需要 1.6GB的内存（用哈希表实现的具体办法是将每一个 email地址对应成一个八字节的信息指纹，然后将这些信息指纹存入哈希表，由于哈希表的存储效率一般只有 50%，因此一个 email地址需要占用十六个字节。一亿个地址大约要 1.6GB，即十六亿字节的内存）。因此存贮几十亿个邮件地址可能需要上百 GB的内存。而Bloom Filter只需要哈希表 1/8到 1/4 的大小就能解决同样的问题。

参考

数学之美：布隆过滤器
 大数据量下的集合过滤—BloomFilter

TravelSir

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BloomFilter算法

如何判断一个元素是否存在于集合里？常见的一些解决办法有:但是随着集合中元素的增加，我们需要的存储空间越来越大，检索速度也越来越慢。遍历集合的时间成本高，时间复杂度再O(n)到O(logn)不等而哈希表也存在问题，当元素越来越多，哈希冲突也会越严重，从而影响查询效率。而布隆过滤则是一种时间空间都有巨大优化的算法布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量(位图)和一系列随机映射函数（哈希函数）。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率
复制链接

扫一扫

专栏目录