布隆过滤器

最新推荐文章于 2023-12-14 08:45:00 发布

longjing1113

最新推荐文章于 2023-12-14 08:45:00 发布

阅读量1.9k

点赞数

分类专栏：自然语言处理文章标签：垃圾邮件过滤

自然语言处理专栏收录该内容

21 篇文章 0 订阅

订阅专栏

布隆过滤器（Bloom Filter）是1970年由Burton Howard Bloom提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

布隆过滤器用来过滤垃圾邮件，一个方法就是记录下那些发送垃圾邮件的E-mail地址。但是那些发送者不停地在注册新的地址，将他们都存起来则需要大量的网络服务器。如果用哈希表，每存储一亿个E-mail地址，就需要1.6GB的内存，所以存储几十亿个邮件地址可能需要上百GB的内存，一般服务器是无法存储的。所以引出了布隆过滤器....

假定存储一亿个电子邮件地址，先建立一个16亿二进制常量，即两亿字节的向量，然后将这16亿个二进制位全部设置为零。对于每一个电子邮件地址X,用8个不同的随机数产生器(F1，F2，F3，F4，F5，F6，F7，F8)产生8个信息指纹(f1,f2,f3,f4,f5,f6,f7,f8)。再用一个随机数产生器G把这8个信息指纹映射到1到16亿中的8个自然数g1,g2,g3,g4,g5,g6,g7,g8。现在我们把这8个位置的二进制位全部设置为1。当我们对这一亿个E-mail地址都进行这样的处理后，一个针对这些E-mail地址的布隆过滤器就建成了。

如果Y在黑名单中，显然，g1,g2,g3,g4,g5,g6,g7,g8对应的8个二进制位一定是1.这样在遇到任何黑名单中的电子邮件地址时，我们都能够准确的发现。

有一点不足的需要进行特判。布隆过滤器有极小的可能性将一个不在黑名单中的电子邮件地址判定为在黑名单中，因为有可能某个好的邮件地址正巧对应8个都被设置为1的二进制位。由于这个可能性极小，我们称他为误视概率。一上面的例子为例，误视概率大概在万分之一以下。常见的解决方法是建立另外一个小的白名单，存储那些可能误判的邮件地址。

布隆过滤器的优劣主要与哈希函数的质量相关，而且哈希函数之间的相关度越小越好，每个哈希函数本身的计算过程不要太复杂，不然会影响效率。理想情况下是取k个完全不相关的哈希函数，在不是很严格情况下，也可以通过一个哈希函数的参数变化产生k个不同的哈希函数，比如将i（1≤i≤k）作为参数参与哈希函数的计算。

初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0。

为了表达S={X1, X2,…,Xn}这样一个n个元素的集合，Bloom Filter使用k个相互独立的哈希函数（Hash Function），它们分别将集合中的每个元素映射到{1,…,m}的范围中。对任意一个元素X，第i个哈希函数映射的位置Hi(X)就会被置为1（1≤i≤k）。注意，如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。在下图中，k=3，且有两个哈希函数选中同一个位置（从左边数第五位）。