布隆过滤器(Bloom Filter)是什么?
布隆过滤器(Bloom Filter)是 1970 年由布隆提出的,它实际上是由一个很长的二进制向量和一系列随意映射函数组成。
它是一种基于概率的数据结构,主要用来判断某个元素是否在集合内,它具有运行速度快(时间效率),占用内存小的优点(空间效率),但是有一定的误识别率和删除困难的问题。它能够告诉你某个元素一定不在集合内或可能在集合内。
为什么说可能在集合内而无法确定一定在集合内呢?而一定不在集合内为什么又能则可以百分百确定呢?下面我们通过分析布隆过滤器的原理来解释。
为什么需要布隆过滤器(Bloom Filter)?
在软件设计时,我们经常要判断一个元素是否在一个集合中。如:网络爬虫时,一个网址是否已经被访问过、一个邮件地址是否在黑名单中、在文字处理软件中某个英文单词是否拼写正确等。一个直接的方法是,将集合中的所有元素都存储在计算机中(如保存在链表、树、哈希表等数据结构)。当要判断一个新元素的时候,直接跟集合中的已存储元素对比即可判断元素是否在集合中。但是,当随着加入的数据量增加,我们需要存储元素的空间就越来越大,而且检索速度也会开始变慢。链表、树、哈希表的数据结构检索时间复杂度分别为:O(n)、O(logn)、O(n/k)。
举个例子,像 Gmail 这种邮件服务提供商,要过滤垃圾邮件。如果采用上面说的方法,将垃圾邮件加入到哈希表中,那至少要加入数十亿的垃圾邮件地址。没存储一个亿的 email 地址,就需要 1.6GB(将一个 email 地址转换成一个 8 字节的信息指纹并存入到哈希表中。由于哈希表的存储效率一般只有 50%&