笔记:布隆过滤器

布隆过滤器:这个思想概念的提出,隐约记得是一个美国佬在20世纪80年代提出来的,也没有太关注这个。反正许多在IT领域的思想。不都是外国佬提出的(lll¬ω¬)。先不说这些题外话。布隆过滤器主要为我们提供了一中思路,那就是用失误率来换取空间与时间。为什么这么说。首先要说一点。这个东西,不能够保证100%的正确率的。他的失误率与用来计算的hash函数的个数以及布隆过滤器使用的时间的长短有关(你没有看错,有些场景下,布隆过滤器如果在使用之后,不对其在一段时间下重置更新,他的失误率是会提高的,坑爹吧)。但是在我们能够忍受其的失误率(把失误率通过计算,设置合理的hash函数的条数)的情况下。在在节约空间与效率上,还是很优秀的。

布隆过滤器原理:提前说明,这个他是不会存储具体的数据的。他只是将数据通过hash计算之后。把他映射到一个二进制的数组中。如果是1,就表示这个值存在。0 就表示这个值不存在。因为hash用冲撞的问题,这就导致不同的元素,其hash的计算结果一致。如图中x的第二个hash计算的值,与y的第一个hash计算的值相同。这也就是为什么在布隆过滤器中,只能够添加元素,查找元素,但是不能删除的原因。因为这个不能够保证hash值只属于当前的元素。这也是布隆过滤器的失误率出现的原因,假如有一个元素k,三次计算的结果分别是:6,9,12  ,如何来判断的时候,就尴尬了。布隆就会说,k这个元素是存在的,但是问题是,我们只有x,y这两个元素。

然后我们在来说说,我前面提到的,布隆过滤器,布隆过滤器,在使用的时间越久,其失误率也会变高的场景是:试想有个黑名单的拦截场景,在使用布隆过滤器的时候,你已经根据当前黑名单的数据量,以及能够容忍的失误率,你已经设置好了hash函数的个数。但是这个黑民单的数据量是在增长的。而随着量的变大,如果考虑极端情况的话,是不是最终就会把二进制的数组中,所有的0 都变为1 。那么,不论什么值进来,布隆过滤器都会判断成为黑名单数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值