布隆过滤器的实现原理

最新推荐文章于 2022-10-10 14:11:35 发布

rlk512974883

最新推荐文章于 2022-10-10 14:11:35 发布

阅读量173

点赞数

分类专栏： JAVA基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rlk512974883/article/details/109289082

版权

JAVA基础专栏收录该内容

56 篇文章 3 订阅

订阅专栏

布隆过滤器可以理解为一个不怎么精确的 set 结构，当你使用它的 contains 方法判断某

个对象是否存在时，它可能会误判。但是布隆过滤器也不是特别不精确，只要参数设置的合

理，它的精确度可以控制的相对足够精确，只会有小小的误判概率。

当布隆过滤器说某个值存在时，这个值可能不存在；当它说不存在时，那就肯定不存

在。打个比方，当它说不认识你时，肯定就不认识；当它说见过你时，可能根本就没见过

面，不过因为你的脸跟它认识的人中某脸比较相似 ( 某些熟脸的系数组合 ) ，所以误判以前见

过你。

布隆过滤器的hash分发标注原理，一般用3-5个hash算法进去标注

每个布隆过滤器对应到 Redis 的数据结构里面就是一个大型的位数组和几个不一样的无

偏 hash 函数。所谓无偏就是能够把元素的 hash 值算得比较均匀。

向布隆过滤器中添加 key 时，会使用多个 hash 函数对 key 进行 hash 算得一个整数索

引值然后对位数组长度进行取模运算得到一个位置，每个 hash 函数都会算得一个不同的位

置。

空 间占用估计

布隆过滤器的空间占用有一个简单的计算公式，但是推导比较繁琐，这里就省去推导过

程了，直接引出计算公式，感兴趣的读者可以点击「扩展阅读」深入理解公式的推导过程。

布隆过滤器有两个参数，第一个是预计元素的数量 n ，第二个是错误率 f 。公式根据这

两个输入得到两个输出，第一个输出是位数组的长度 l ，也就是需要的存储空间大小 (bit) ，

第二个输出是 hash 函数的最佳数量 k 。 hash 函数的数量也会直接影响到错误率，最佳的数

量会有最低的错误率。

k=0.7*(l/n) # 约等于

f=0.6185^(l/n) # ^ 表示次方计算，也就是 math.pow

错误率估计

错误率其实是根据位数组的长度和hash函数的个数决定的。一般3-5个hash函数，并不是越大越好。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

rlk512974883 CSDN认证博客专家 CSDN认证企业博客

码龄7年

77: 原创

6万+: 周排名

220万+: 总排名

26万+: 访问

: 等级

1990: 积分

20: 粉丝

61: 获赞

8: 评论

256: 收藏

私信

关注

热门文章

分类专栏

es 1篇
redis 2篇
JAVA基础 56篇
问题集合 1篇
数据库 23篇
业务分析 2篇
maven 项目 1篇
源码 1篇
算法
Spring 4篇
线程
设计模式
SpringBoot 1篇
JQuery 1篇
虚拟机 1篇

最新评论

CPU飙高原因及解决方案
。。。。？？？，。。: 没有废话，关键步骤一目了然
设置编码格式
Tkgreat: @RequestMapping(value="/aaa/bbb" ,produce="text/html;charset=utf-8")-----一般在返回字符串时使用；应该是produces
什么是时间片
千里快哉风哟: 好，让我对并发也有了更深刻profoundly的了解，在非常小的时间间隔内停止后马上运行又马上停止马上运行，好像都在运行，而从微观上来看一个时刻只有一个procedure在运行，从整段t来说
sql 查询库中某表中所有字段及字段类型、属性等
Bernice橘子: 看了这么多解答只有你的命令成功了，蟹蟹啦~
lambda 使用场景
套呢猴子: NMBS

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。