Counting Bloom Filter

原创 2007年01月30日 22:25:00

Counting Bloom Filter

焦萌 2007130

 

从前面几篇对Bloom Filter的介绍可以看出,标准的Bloom Filter是一种很简单的数据结构,它只支持插入和查找两种操作。在所要表达的集合是静态集合的时候,标准Bloom Filter可以很好地工作,但是如果要表达的集合经常变动,标准Bloom Filter的弊端就显现出来了,因为它不支持删除操作。

 

Counting Bloom Filter的出现解决了这个问题,它将标准Bloom Filter位数组的每一位扩展为一个小的计数器(Counter),在插入元素时给对应的kk为哈希函数个数)个Counter的值分别加1,删除元素时给对应的kCounter的值分别减1Counting Bloom Filter通过多占用几倍的存储空间的代价,给Bloom Filter增加了删除操作。下一个问题自然就是,到底要多占用几倍呢?

 

 

我们先计算第iCounter被增加j次的概率,其中n为集合元素个数,k为哈希函数个数,mCounter个数(对应着原来位数组的大小):

上面等式右端的表达式中,前一部分表示从nk次哈希中选择j次,中间部分表示j次哈希都选中了第iCounter,后一部分表示其它nk – j次哈希都没有选中第iCounter。因此,第iCounter的值大于j的概率可以限定为:

上式第二步缩放中应用了估计阶乘的斯特林公式:

Bloom Filter概念和原理一文中,我们提到过k的最优值为(ln2)m/n,现在我们限制k ≤ (ln2)m/n,就可以得到如下结论:

如果每个Counter分配4位,那么当Counter的值达到16时就会溢出。这个概率为:

这个值足够小,因此对于大多数应用程序来说,4位就足够了。

 

 关于Counting Bloom Filter最早的论文:Summary Cache: A Scalable Wide-Area Web Cache Sharing Protocol

版权声明:本文为博主原创文章,未经博主允许不得转载。

Bloom Filter 系列改进之Counting Bloom Filter

Bloom Filter的出现,使得海量数据搜索的效率提高了非常多,

评价d-Left Counting Bloom Filter

 Bloom Filter是一个简洁精致的数据结构,要对它进行本质上的提高并不容易。多少年来,针对Bloom Filter的变种很多,但实质性的突破并不多,无非Counting Bloom Filte...

Bloom Filter概念和原理

Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom ...
  • jiaomeng
  • jiaomeng
  • 2007年01月27日 12:47
  • 182171

海量数据处理算法—Bloom Filter

1. Bloom-Filter算法简介         Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。        Bloom...
  • hguisu
  • hguisu
  • 2012年08月14日 18:40
  • 56799

浅谈BloomFilter【下】用Java实现BloomFilter

通过前一篇文章的学习,对于 BloomFillter 通过前一篇文章的学习,对于 BloomFilter 的概念和原理,以及误报率等计算方法都一个理性的认识了。在这里,我们将用 Java'实现一个简单...

海量数据处理之Bloom Filter详解

海量数据处理之Bloom Filter详解  前言    本博客内曾已经整理过十道海量数据处理面试题与十个方法大总结。接下来,本博客内会重点分析那些海量数据处理的方法,并重写十道海量数据处理的面试题。...
  • v_JULY_v
  • v_JULY_v
  • 2011年08月14日 13:19
  • 75586

应用Bloom Filter的几个小技巧

应用Bloom Filter的几个小技巧焦萌 2007年1月29日 下面列举几个基于标准Bloom Filter的小技巧: 1.         求两个集合的并。假设有两个Bloom Filter分别...

传说的Bloom Filter源代码

bloom.h #ifndef __BLOOM_H__ #define __BLOOM_H__ #include typedef unsigned int (*hashfunc_t)(cons...

BloomFilter

BloomFilter——大规模数据处理利器:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html JAVA Bitset应用总...

Bloom Filter 算法详解

Bloom Filter 算法Bloom filter是由Burton Bloom 在1970年提出的,其后在P2P上得到了广泛的应用。Bloom filter 算法可用来查询某一数据是否在某一数据集...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Counting Bloom Filter
举报原因:
原因补充:

(最多只允许输入30个字)