布隆过滤器的增强实现布谷鸟过滤器来了

本文介绍了布隆过滤器及其存在的误判和无法删除数据的问题,提出了一种增强版——布谷鸟过滤器。布谷鸟过滤器通过哈希映射解决删除操作,并优化了空间利用率和查询性能,但仍有误判可能性。文章详细解释了布谷鸟过滤器的工作原理,包括布谷鸟哈希和其优化策略。
摘要由CSDN通过智能技术生成

大家都知道,在计算机中,IO一直是一个瓶颈,很多框架以及技术甚至硬件都是为了降低IO操作而生,今天聊一聊过滤器,先说一个场景:

我们业务后端涉及数据库,当请求消息查询某些信息时,可能先检查缓存中是否有相关信息,有的话返回,如果没有的话可能就要去数据库里面查询,这时候有一个问题,如果很多请求是在请求数据库根本不存在的数据,那么数据库就要频繁响应这种不必要的IO查询,如果再多一些,数据库大多数IO都在响应这种毫无意义的请求操作,那么如何将这些请求阻挡在外呢?过滤器由此诞生:

- 布隆过滤器 -

布隆过滤器(Bloom Filter)大概的思路就是,当你请求的信息来的时候,先检查一下你查询的数据我这有没有,有的话将请求压给数据库,没有的话直接返回,是如何做到的呢?

布隆过滤器的增强实现布谷鸟过滤器来了

如图,一个bitmap用于记录,bitmap原始数值全都是0,当一个数据存进来的时候,用三个Hash函数分别计算三次Hash值,并且将bitmap对应的位置设置为1,上图中,bitmap 的1,3,6位置被标记为1,这时候如果一个数据请求过来,依然用之前的三个Hash函数计算Hash值,如果是同一个数据的话,势必依旧是映射到1,3,6位,那么就可以判断这个数据之前存储过,如果新的数据映射的三个位置,有一个匹配不上,假如映射到1,3,7位,由于7位是0,也就是这个数据之前并没有加入进数据库,所以直接返回。

布隆过滤器的问题

上面这种方式,应该你已经发现了,布隆过滤器存在一些问题:

第一方面,布隆过滤器可能误判:

假如有这么一个情景,放入数据包1时,将bitmap的1,3,6位设置为了1,放入数据包2时将bitmap的3,6,7位设置为了1,此时一个并没有存过的数据包请求3,做三次哈希之后,对应的bitmap位点分别

布隆过滤器布谷鸟过滤器都是常见的数据结构,用于快速判断一个元素是否存在于一个集合中。它们在不同的应用场景下有不同的特点和适用性。 布隆过滤器是一种空间效率很高的概率型数据结构,它通过使用多个哈希函数和一个位数组来判断元素是否存在。当一个元素被加入集合时,分别对该元素进行多次哈希映射,并将对应的位数组位置置为1。当判断一个元素是否存在时,同样进行多次哈希映射,并检查对应的位数组位置是否都为1。如果有任意一位为0,则可以确定该元素一定不存在;如果都为1,则该元素可能存在(存在一定的误判概率)。 布谷鸟过滤器是一种更加高级的数据结构,它通过使用散列函数和一个数组来判断元素是否存在,并且可以支持插入和删除操作。布谷鸟过滤器使用散列函数将元素映射到数组的位置,如果该位置为空,则可以确定该元素一定不存在;如果该位置不为空,则需要进一步检查是否与目标元素相等。当插入新元素时,如果目标位置已经被占用,则需要重新散列冲突的元素,使其找到新的空位置。布谷鸟过滤器通过这种方式来解决布隆过滤器存在的误判问题。 总的来说,布隆过滤器适用于需要快速判断一个元素是否存在,且对存在一定的误判概率可以接受的场景。而布谷鸟过滤器则更加灵活,支持插入和删除操作,并且对误判有一定的容忍度。根据具体的需求和场景,选择适合的过滤器可以提高效率和准确性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值