布隆过滤器

最新推荐文章于 2024-10-30 21:26:02 发布

微知girl

最新推荐文章于 2024-10-30 21:26:02 发布

阅读量343

点赞数

分类专栏： # 算法文章标签：机器学习布隆过滤器

本文链接：https://blog.csdn.net/katrina1rani/article/details/48293983

版权

算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

布隆过滤器

简单理解就是一种查看一个元素是否属于集合的过滤系统，如字符串。而对于数据量很大的比较时，不能单纯的采用原始方法进行比较，这样时间和空间开销都会比较大，因此布隆过滤器采用 n+k个布尔函数，得到如下二进制向量，如果一个字符串在所有布尔函数下对应位置都为1，则集合中包含此字符串。[理解不是很透彻，如有错误，望各位高手指出！]

布隆过滤器［1］（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成，布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率（假正例False positives，即Bloom Filter报告某一元素存在于某集合中，但是实际上该元素并不在集合中）和删除困难，但是没有识别错误的情形（即假反例False negatives，如果某个元素确实没有在该集合中，那么Bloom Filter 是不会报告该元素存在于集合中的，所以不会漏报）。

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。

集合表示和元素查询

下面我们具体来看Bloom Filter是如何用位数组表示集合的。初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0。

为了表达S={x₁, x₂,…,x_n}这样一个n个元素的集合，Bloom Filter使用k个相互独立的哈希函数（Hash Function），它们分别将集合中的每个元素映射到{1,…,m}的范围中。对任意一个元素x，第i个哈希函数映射的位置h_i(x)就会被置为1（1≤i≤k）。注意，如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。在下图中，k=3，且有两个哈希函数选中同一个位置（从左边数第五位）。