布隆过滤器

什么是布隆过滤器

​ 布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。

布隆过滤器的数据结构

它本身是一个很长的二进制向量,既然是二进制的向量,那么显而易见的,存放的不是0,就是1。

现在我们新建一个长度为8的布隆过滤器,默认值都是0,就像下面这样:
在这里插入图片描述

接下来有我们要映射一个值到布隆过滤器中,如下图,对值"moon" 和三个不同的哈希函数分别生成了哈希值(下图的下标(1,3,6)),将对应下标的值改为1。
在这里插入图片描述
现在又来了一个值“yue”,返回不同的哈希值(1,4,7),将对应下标的值改为1。
在这里插入图片描述
值得注意一点:1 这个位置上由于两个值的哈希函数都返回了这个bit位。现在要查询"moon"这个值是否存在,那你可不敢说他肯定存在,只能说可能存在,每个bit位都可能有好几个值映射到。
但是如果说要查询"liang"这个值,是否存在,经过哈希函数的映射,你发现返回的值都是0,那么这个值肯定不存在。

不支持删除
传统的布隆过滤器并不支持删除操作。但是名为 Counting Bloom filter 的变种可以用来测试元素计数个数是否绝对小于某个阈值,它支持元素删除。

优缺点

优点:由于存放的不是完整的数据,所以占用的内存很少,而且新增,查询速度够快。

缺点: 随着数据的增加,误判率随之增加;无法做到删除数据;只能判断数据是否一定不存在,而无法判断数据是否一定存在。

如何选择哈希函数个数和布隆过滤器长度

直接帖个公式吧。
在这里插入图片描述
k 为哈希函数个数,m 为布隆过滤器长度,n 为插入的元素个数,p 为误报率。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值