笔记：布隆过滤器

最新推荐文章于 2022-01-07 16:58:08 发布

弓张张长

最新推荐文章于 2022-01-07 16:58:08 发布

阅读量128

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/u014609066/article/details/109623631

版权

笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

布隆过滤器：这个思想概念的提出，隐约记得是一个美国佬在20世纪80年代提出来的，也没有太关注这个。反正许多在IT领域的思想。不都是外国佬提出的(lll￢ω￢)。先不说这些题外话。布隆过滤器主要为我们提供了一中思路，那就是用失误率来换取空间与时间。为什么这么说。首先要说一点。这个东西，不能够保证100%的正确率的。他的失误率与用来计算的hash函数的个数以及布隆过滤器使用的时间的长短有关（你没有看错，有些场景下，布隆过滤器如果在使用之后，不对其在一段时间下重置更新，他的失误率是会提高的，坑爹吧）。但是在我们能够忍受其的失误率（把失误率通过计算，设置合理的hash函数的条数）的情况下。在在节约空间与效率上，还是很优秀的。

布隆过滤器原理：提前说明，这个他是不会存储具体的数据的。他只是将数据通过hash计算之后。把他映射到一个二进制的数组中。如果是1，就表示这个值存在。0 就表示这个值不存在。因为hash用冲撞的问题，这就导致不同的元素，其hash的计算结果一致。如图中x的第二个hash计算的值，与y的第一个hash计算的值相同。这也就是为什么在布隆过滤器中，只能够添加元素，查找元素，但是不能删除的原因。因为这个不能够保证hash值只属于当前的元素。这也是布隆过滤器的失误率出现的原因，假如有一个元素k,三次计算的结果分别是：6，9，12 ，如何来判断的时候，就尴尬了。布隆就会说，k这个元素是存在的，但是问题是，我们只有x,y这两个元素。

然后我们在来说说，我前面提到的，布隆过滤器，布隆过滤器，在使用的时间越久，其失误率也会变高的场景是：试想有个黑名单的拦截场景，在使用布隆过滤器的时候，你已经根据当前黑名单的数据量，以及能够容忍的失误率，你已经设置好了hash函数的个数。但是这个黑民单的数据量是在增长的。而随着量的变大，如果考虑极端情况的话，是不是最终就会把二进制的数组中，所有的0 都变为1 。那么，不论什么值进来，布隆过滤器都会判断成为黑名单数据。

弓张张长

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
笔记：布隆过滤器

布隆过滤器：这个思想概念的提出，隐约记得是一个美国佬在20世纪80年代提出来的，也没有太关注这个。反正许多在IT领域的思想。不都是外国佬提出的(lll￢ω￢)。先不说这些题外话。布隆过滤器主要为我们提供了一中思路，那就是用失误率来换取空间与时间。为什么这么说。首先要说一点。这个东西，不能够保证100%的正确率的。他的失误率与用来计算的hash函数的个数以及布隆过滤器使用的时间的长短有关（你没有看错，有些场景下，布隆过滤器如果在使用之后，不对其在一段时间下重置更新，他的失误率是会提高的，坑爹吧）。但是在我们能
复制链接

扫一扫

专栏目录