d-Left Counting Bloom Filter (4)_java counting bloom filter-CSDN博客

本文链接：https://blog.csdn.net/jiaomeng/article/details/1526099

根据前面的描述，d-left counting bloom filter构造过程中的缺陷有三个条件：1. x和y的fingerprint相同；2. 位置选择有重合；3. x不选择重合位置，y选择重合位置。其中fingerprint相同我们无法避免，因为碰撞总会出现，cell中的counter也是为此而设置的。元素选不选择重合位置我们也无法控制，因为这要根据当时的负载情况而定。所以我们想要弥补这个缺陷，只能从位置重合入手。换句话说，要想办法让不同元素的d个位置选择完全没有重合（不考虑碰撞）。

我们给出的解决方案是：将hashing的整个操作分成两个阶段。第一阶段，我们用一个哈希函数H计算要插入元素x的hash value，记做f_x；第二阶段，为了获得d个存储位置，我们另外引入d个随机置换（random permutation）。令H(x) = f_x = (b, r)，其中b是bucket index，表示存储位置；r是remainder，表示要存储的fingerprint。然后令d个置换为：

P₁(f_x) = (b₁, r₁), P₂(f_x) = (b₂, r₂), … , P_d(f_x) = (b_d, r_d).

其中P_i(f_x)对应着x在第i个子表的存储位置和fingerprint。我们知道置换意味着一一对应，因此不同元素（的hash value）作置换之后的值仍然不同。这样我们就达到了前面提到的让不同元素的d个位置选择完全没有重合的目标。

引入随机置换避免了位置重合之后，我们还需要在插入元素之前作一项工作。每次插入一个元素时，先要在它的d个位置选择中检查是否已经存有相同的fingerprint，如果有，就把相应cell的counter加1。由于不同元素的存储位置不会重合，因此只有在碰撞的情况下才会出现两个相同fingerprint能存入同一组存储位置的情况。而我们一旦在插入之前作了检测，再作删除操作时就永远不会发现d个位置中有两个完全相同的fingerprint。

到此为止，删除元素时的缺陷问题已经完全被解决了。但同时，我们也看到，为了解决缺陷而引入的随机置换让存储的过程变成了一种并不严格的d-left hashing。幸运的是，这个问题并不是很严重，至少在实现中很难看出什么差别。至于选择什么样的置换，论文作者给出的建议是：简单的线性函数。如果哈希函数的取值范围为[2^q]，随机置换可以写成：

P_i(H(x)) = aH(x) mod 2^q

其中a是区间[2^q]中的随机奇数。