布谷鸟过滤器

一、布隆过滤器

布隆过滤器有exists方法通过对位数组的hash计算判断某元素是否在集合中,实现去重功能。但布隆过滤器有一下缺点:

  1. 不支持反向删除元素:一旦对位数组进行了赋值,无法将其删除。
  2. 查询性能弱:布隆过滤器使用多个hash函数计算位图多个不同位点,由于多个位点在内存中不连续,CPU寻址花销较大。
  3. 空间利用率低。

二、布谷鸟过滤器

布谷鸟过滤器源于布谷鸟Hash算法,布谷鸟Hash表有两张,分别两个Hash函数,当有新的数据插入的时候,它会计算出这个数据在两张表中对应的两个位置,这个数据一定会被存在这两个位置之一(表1或表2)。一旦发现其中一张表的位置被占,就将改位置原来的数据踢出,被踢出的数据就去另一张表找对应的位置。通过不断的踢出数据,最终所有数据都找到了自己的归宿。
但仍会有数据不断的踢出,最终形成循环,总有一个数据一直没办法找到落脚的位置,这代表布谷Hash表走到了极限,需要将Hash算法优化或Hash表扩容。

布谷鸟过滤器只会存储元素的指纹信息(几个bit,类似于布隆过滤器),由于不是存储了数据的全部信息,会有误判的可能。

由于布谷鸟过滤器在踢出数据时,需要再次计算原数据在另一种表的Hash值,因此作者设计Hash算法时将两个Hash函数变成了一个Hash函数,第一张表的备选位置是Hash(x),第二张表的备选位置是Hash(x)⊕hash(fingerprint(x)),即第一张表的位置与存储的指纹的Hash值做异或运算。这样可以直接用指纹的值 <

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
布隆过滤器布谷鸟过滤器都是常见的数据结构,用于快速判断一个元素是否存在于一个集合中。它们在不同的应用场景下有不同的特点和适用性。 布隆过滤器是一种空间效率很高的概率型数据结构,它通过使用多个哈希函数和一个位数组来判断元素是否存在。当一个元素被加入集合时,分别对该元素进行多次哈希映射,并将对应的位数组位置置为1。当判断一个元素是否存在时,同样进行多次哈希映射,并检查对应的位数组位置是否都为1。如果有任意一位为0,则可以确定该元素一定不存在;如果都为1,则该元素可能存在(存在一定的误判概率)。 布谷鸟过滤器是一种更加高级的数据结构,它通过使用散列函数和一个数组来判断元素是否存在,并且可以支持插入和删除操作。布谷鸟过滤器使用散列函数将元素映射到数组的位置,如果该位置为空,则可以确定该元素一定不存在;如果该位置不为空,则需要进一步检查是否与目标元素相等。当插入新元素时,如果目标位置已经被占用,则需要重新散列冲突的元素,使其找到新的空位置。布谷鸟过滤器通过这种方式来解决布隆过滤器存在的误判问题。 总的来说,布隆过滤器适用于需要快速判断一个元素是否存在,且对存在一定的误判概率可以接受的场景。而布谷鸟过滤器则更加灵活,支持插入和删除操作,并且对误判有一定的容忍度。根据具体的需求和场景,选择适合的过滤器可以提高效率和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值