Bloom Filter

最新推荐文章于 2024-01-10 12:04:00 发布

weixin_33991418

最新推荐文章于 2024-01-10 12:04:00 发布

阅读量139

点赞数

文章标签：数据结构与算法爬虫大数据

Bloom是个人名。

学习Bloom Filter

1、概述

布隆过滤器（Bloom Filter）是由Burton Howard Bloom于1970年提出，它是一种概率型数据结构，用于判断一个元素是否在集合中。（作用）

Bloom filter 是一个数据结构，它可以用来判断某个元素是否在集合内，具有运行快速，内存占用小的特点。

而高效插入和查询的代价就是，Bloom Filter 是一个基于概率的数据结构：它只能告诉我们一个元素绝对不在集合内或可能在集合内

判断一个元素是否在集合中可用的方法有：

数组
链表
树、平衡二叉树、Trie
Map (红黑树)
哈希表

既然已经有了这么多的方法，为啥还要用布隆过滤器这种会产生误判的方法呢？

当集合里面的元素数量足够大，如果有500万条记录甚至1亿条记录呢？这个时候常规的数据结构的问题就凸显出来了。数组、链表、树等数据结构会存储元素的内容，一旦数据量过大，消耗的内存也会呈现线性增长，最终达到瓶颈。有的同学可能会问，哈希表不是效率很高吗？查询效率可以达到O(1)。但是哈希表需要消耗的内存依然很高。使用哈希表存储一亿个垃圾 email 地址的消耗？哈希表的做法：首先，哈希函数将一个email地址映射成8字节信息指纹；考虑到哈希表存储效率通常小于50%（哈希冲突）；因此消耗的内存：8 * 2 * 1亿字节 = 1.6G 内存，普通计算机是无法提供如此大的内存。这个时候，布隆过滤器（Bloom Filter）就应运而生。(布隆过滤器的原理和实现)

假定我们存储一亿个电子邮件地址，我们先建立一个十六亿二进制（比特），即两亿字节的向量，然后将这十六亿个二进制全部设置为零。对于每一个电子邮件地址 X，我们用八个不同的随机数产生器（F1,F2, ...,F8）产生八个信息指纹（f1, f2, ..., f8）。再用一个随机数产生器 G 把这八个信息指纹映射到 1 到十六亿中的八个自然数 g1, g2, ...,g8。现在我们把这八个位置的二进制（这里没太明白，八个位置的二进制的意思是，这八个位置的意思每个位置代表了若干个字节？）全部设置为一。当我们对这一亿个 email 地址都进行这样的处理后。一个针对这些 email 地址的布隆过滤器就建成了。（见下图）

2、应用场景：

字处理软件中，需要检查一个英语单词是否拼写正确
在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上
在网络爬虫里，一个网址是否被访问过
yahoo, gmail等邮箱垃圾邮件过滤功能

哈希表也能用于判断元素是否在集合中，但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。（优点：占用空间小）

布隆过滤器可以插入元素，但不可以删除已有元素。（操作特点：不能删除元素，因为你不知道你删的是哪个）

其中的元素越多，误报率越大，但是漏报是不可能的。（查重特点：宁肯错杀三千，不会放过一个）

3、算法描述

首先一个空的布隆过滤器是有m个bit的位数组，每个bit位都被初始化为0。

同时，还有需要定义k个不同的哈希函数，每个都会将元素通过该哈希函数计算到m个不同位置中的一个。

下面描述的时候规定：n表示待判别的元素个数，m为布隆过滤器或者哈希表的slot数，k为布隆过滤器哈希函数的个数。

增加元素：用k个哈希函数将它hash得到bloom filter中k个bit位，将这k个bit位置1。
查询元素：为了判断一个元素是否在集合中，可以用k个hash函数将它进行hash得到k个bit位。如果这k个bit位全为1，则此元素在集合中；如果其中任意一位不为1，则此元素不在集合中。
移除元素：一旦向布隆过滤器中添加了一个元素，那么是不允许从布隆过滤器中移除的，因为不能保证你不会讲其他对应到这k个bit的元素同时移除了，这样一来就会导致误判。

布隆过滤器（Bloom Filter）的核心实现是一个超大的位数组和几个哈希函数。

以上图为例，具体的操作流程：假设集合里面有3个元素{x, y, z}，哈希函数的个数为3。首先将位数组进行初始化，将里面每个位都设置位0。对于集合里面的每一个元素，将元素依次通过3个哈希函数进行映射，每次映射都会产生一个哈希值，这个值对应位数组上面的一个点，然后将位数组对应的位置标记为1。查询w元素是否存在集合中的时候，同样的方法将w通过哈希映射到位数组上的3个点。如果3个点的其中有一个点不为1，则可以判断该元素一定不存在集合中。反之，如果3个点都为1，则该元素可能存在集合中。注意：此处不能判断该元素是否一定存在集合中，可能存在一定的误判率。可以从图中可以看到：假设某个元素通过映射对应下标为4，5，6这3个点。虽然这3个点都为1，但是很明显这3个点是不同元素经过哈希得到的位置，因此这种情况说明元素虽然不在集合中，也可能对应的都是1，这是误判率存在的原因。(布隆过滤器的原理和实现)

4、注意的地方

当k很大的时候，要设计出k个独立的哈希函数比较困难；可供替换的方法有：利用输出范围很大的哈希函数（如MD5产生的128位），将输出分为k份，或者将k个不同的初始值结合元素，给哈希函数生成k个不同的数。

如果向布隆过滤器增加的元素过多，n/m过大，会导致误判率升高，因此要么重新建立布隆过滤器，要么在开始预估一下需要布隆过滤器中会加入多少元素，然后选择合适的m。

5、时间和空间上的优势

可以当做集合来存储元素的数据结构有：self-balance BST，tries（确定没写错），hash table或者array，chain；它们中的大多数至少需要存储元素本身，对于小的整数需要少量的bits，对于字符串则需要任意多的bits（tries例外，因为元素可以共享存储空间）；而chain结构还要为存储指针付出额外的代价。布隆过滤器的插入和查询操作的复杂度都为O(k)，与集合中元素的多少无关，这是其他的数据结构都无法比拟的。

如果数据元素不是很多，并且大多都在集合中，则使用确定性的bit array远远胜过使用布隆过滤器。因为bit array对于每个可能的元素空间上只需要1bit。

当考虑到冲突时，对于有m个slot（槽）的bit array或者其他哈希表，如果要保证1%的误判率，则这个bit array只能存储m/100个元素，因而有大量的空间被浪费，同时空间复杂度也会急剧上升。这里可以使用k>1的布隆过滤器，即k个哈希函数将每个元素对应于k个bits，从而误判率会降低很多，如果k和m选取合适，可以使一半的m被置为1，非常节省空间。