布隆过滤器原理介绍+实现流程+使用场景

最新推荐文章于 2024-11-02 09:55:19 发布

嘚嘚嘚嘚嘚嘚哒

最新推荐文章于 2024-11-02 09:55:19 发布

阅读量105

点赞数

文章标签：哈希算法算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47450919/article/details/133385762

版权

什么是布隆过滤器？

布隆过滤器（Bloom Filter）是由 Bloom 于 1970 年提出的。我们可以把它看作由二进制向量（或者说位数组）和一系列随机映射函数（哈希函数）两部分组成的数据结构。相比于我们平时常用的的 List、Map 、Set 等数据结构，它占用空间更少并且效率更高，但是缺点是其返回的结果是概率性的，而不是非常准确的。理论情况下添加到集合中的元素越多，误报的可能性就越大。并且，存放在布隆过滤器的数据不容易删除。

位数组中的每个元素都只占用 1 bit ，并且每个元素只能是 0 或者 1。这样申请一个 100w 个元素的位数组只占用 1000000Bit / 8 = 125000 Byte = 125000/1024 kb ≈ 122kb 的空间。

布隆过滤器的原理介绍

当一个元素加入布隆过滤器中的时候，会进行如下操作：

使用布隆过滤器中的哈希函数对元素值进行计算，得到哈希值（有几个哈希函数得到几个哈希值）。
根据得到的哈希值，在位数组中把对应下标的值置为 1。
当我们需要判断一个元素是否存在于布隆过滤器的时候，会进行如下操作：

对给定元素再次进行相同的哈希计算；
得到值之后判断位数组中的每个元素是否都为 1，如果值都为 1，那么说明这个值在布隆过滤器中，如果存在一个值不为 1，说明该元素不在布隆过滤器中。

实现流程

当字符串存储要加入到布隆过滤器中时，该字符串首先由多个哈希函数生成不同的哈希值，然后将对应的位数组的下标设置为 1（当位数组初始化时，所有位置均为 0）。当第二次存储相同字符串时，因为先前的对应位置已设置为 1，所以很容易知道此值已经存在（去重非常方便）。

如果我们需要判断某个字符串是否在布隆过滤器中时，只需要对给定字符串再次进行相同的哈希计算，得到值之后判断位数组中的每个元素是否都为 1，如果值都为 1，那么说明这个值在布隆过滤器中，如果存在一个值不为 1，说明该元素不在布隆过滤器中。

不同的字符串可能哈希出来的位置相同，这种情况我们可以适当增加位数组大小或者调整我们的哈希函数。

综上，我们可以得出：布隆过滤器说某个元素存在，小概率会误判。布隆过滤器说某个元素不在，那么这个元素一定不在。

布隆过滤器使用场景

判断给定数据是否存在：比如判断一个数字是否存在于包含大量数字的数字集中（数字集很大，5 亿以上！）、防止缓存穿透（判断请求的数据是否有效避免直接绕过缓存请求数据库）等等、邮箱的垃圾邮件过滤、黑名单功能等等。
去重：比如爬给定网址的时候对已经爬取过的 URL 去重。

参考文章：十分钟理解布隆过滤器

嘚嘚嘚嘚嘚嘚哒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

嘚嘚嘚嘚嘚嘚哒 CSDN认证博客专家 CSDN认证企业博客

码龄5年

36: 原创

23万+: 周排名

30万+: 总排名

5万+: 访问

: 等级

559: 积分

890: 粉丝

197: 获赞

17: 评论

237: 收藏

私信

关注

热门文章

分类专栏

MQ 2篇
专家级 2篇
bug解决 2篇
Flink 5篇
数据库 7篇
Spring 6篇

最新评论

kafka基本使用及结合Java使用
普通网友: 支持一下！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
【MQTT】使用MQTT在Spring Boot项目中实现异步消息通信
JJJ69: 文章写的不错，长知识了
【Redis面试常问】Redis常用数据类型；过期键的删除策略；八种淘汰策略；缓存雪崩、缓存击穿、缓存穿透怎么解决；设置过期时间；
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617614328。
【解决org.springframework.jdbc.BadSqlGrammarException】
CSDN-Ada助手: 恭喜你写了第20篇博客！标题看起来非常有趣，我相信这篇博客一定能帮助到很多遇到同样问题的读者。不过，我也想提供一些建议，希望能在下一篇博客中看到你的进一步创作。或许你可以考虑分享一些实际案例或者更深入的解决方法，这样读者们能够更加全面地了解如何应对这个异常。谦虚之余，我也期待着你的下一篇博客！加油！
【注解】Spring IOC、Spring MVC、Springboot、Mybatis、MyBatis Plus、Spring-data-jpa注解、Lombok注解
CSDN-Ada助手: 恭喜您写了第17篇博客！标题内容真是丰富多样，包含了Spring IOC、Spring MVC、Springboot、Mybatis、MyBatis Plus、Spring-data-jpa注解以及Lombok注解等多个方面。您的博客内容一直都很有深度和广度，让读者受益匪浅。在接下来的创作中，我建议您可以进一步深入研究其中的某个主题，或者探索一些相关的新技术。这样可以让您的博客更具专业性和独特性，吸引更多的读者。同时，也可以考虑与其他领域的技术进行交叉融合，给读者带来更多的思考和启发。希望您能继续保持创作的激情和热情，期待您更多精彩的博客文章！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。