下文中用到位图的相关知识和代码见博客:位图的基本操作
布隆过滤器主要用于在一个字符串集合中查找某个字符串是否存在。要在集合中查找,首先要将该字符串集合储存起来。那么该如何存储呢?
如果用链表,树等结构进行存储,当集合中的元素越来越多时,所占的空间就越来越大。查找的效率也会越来越低。如果用哈希表来存储,首先要根据字符串哈希函数计算字符串对应的数值,将该数值通过除留余数法等哈希函数计算出下标值,然后将字符串整体存放在哈希表的该下标处中。此时,随着字符串数量的增多,占用的内存也会越来越大。同时发生哈希冲突的概率也会越来越大。在哈希表中解决哈希冲突的方法是通过闭散列(线性探测)或开散列(哈希桶)的方法来解决。但是随着元素个数的增多,查找效率会降低,因此就需要控制存放在哈希表中的元素个数了,此时内存的空间利用率就会降低。
所以,通过变形的哈希表来解决该问题:
首先考虑上述的内存占用问题。如果将一个字符串用一个比特位来表示,此时就会大大节省内存空间。这里就需要使用到位图的结构来进行存储,而且位图适用于不重复的数据集合,此时空间利用率特别高。
其次,要使各字符串对应的下标尽可能的不重复进而提高空间利用率。所以就要解决字符串的冲突问题。在计算字符串的存储下标时,经历了两个步骤:
(1)首先根据字符串哈希函数计算字符串对应的数值。
(2)将上述的数值通过除留余数法等哈希函数计算下标值。
随着字符串数量的增多,在上述两个过程中的任一步计算的数值相同的可能性就越大。因此,发生冲突的概率也会越来越大。因为:
上述由(1)计算的数值如果相同,则由(2)计算的下标值也一定相同。如果(1)计算的数值不相同,则由(2)计算的