布隆过滤器

吾忆da

于 2024-08-01 10:06:08 发布

阅读量597

点赞数 19

文章标签：哈希算法算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_60536984/article/details/140840022

版权

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，主要用于判断一个元素是否可能属于某个集合。它的基本原理是利用位数组（Bitmap）和一组哈希函数来实现快速且近似的存在性查询。

一、布隆过滤的工作原理

初始化时，位数组的所有位都被设置为0。位数组的最大长度是2的32次方，大约42亿
当要插入一个元素时，使用预先设定好的多个独立、均匀分布的哈希函数对元素进行哈希运算，每个哈希函数都会计算出一个位数组的索引位置。
将通过哈希运算得到的每个索引位置的位设置为1。
查询一个元素是否存在时，同样用相同的哈希函数对该元素进行运算，并检查对应位数组的位置是否都是1。如果所有位都为1，则认为该元素可能存在于集合中(小概率存在hash碰撞)；如果有任何一个位为0，则可以确定该元素肯定不在集合中。
由于哈希碰撞的存在，当多位同时为1时，可能出现误报（False Positive），即报告元素可能在集合中。

（所以布隆过滤器是有一定的误杀概率的，但是可以通过增加hash次数，降低hash碰撞的概率，来降低布隆的误杀率）

二、布隆过滤器的优缺点

优点：

空间效率高：相比于精确存储所有元素的数据结构，布隆过滤器所需的内存空间小得多。

布隆过滤器占用空间计算:

2的32次方=4294967296(字节)

1GB = 1024*1024 *1024 = 1073741824(字节)

所以单个布隆过滤的最大存储大约是4GB，存放42亿点位的数据

查询速度快：只需要执行几个哈希函数并检查位数组即可完成查询。

缺点：

不可删除：标准布隆过滤器不支持元素的删除操作，因为无法得知哪些位仅是因为当前查询的元素而置1的。
误报率：随着元素数量增加，误报率也会逐渐升高，但是可以通过调整位数组大小和哈希函数数量来控制误报率。

三、应用场景

缓存击穿防护（通过缓存数据在数据库是否存在，减少对数据库的访问次数）
重复数据检测
垃圾邮件过滤（电子邮件系统的垃圾邮件地址库，快速判断收到的邮件是否可能来自已知的垃圾邮件发送者）
推荐系统（个性化推荐系统中，用于快速排除用户已经浏览过或者不感兴趣的内容）
数据分析与挖掘（在大规模数据清洗阶段，用来剔除重复样本或无效数据，采集就是这个场景）
网络安全（网络防火墙和入侵检测系统中，用于过滤已知恶意IP或攻击特征）

还有很多就不穷举了。

四、采集服务

采集每天可能要处理上百亿的数据，自动导每10分钟要采集近70分钟的聊天记录。这里就存在大量的重复数据，因此需要对数据去重。去重我们采用根据消息id去重，微信聊天记录的消息ID是19位的数字字符串；

如果直接使用布隆过滤，必然是存在很大的误杀概率。因为布隆过滤最大只有2的32位的长度，大约42亿，10位数字。
如果直接使用redis缓存消息id来去重，按照每天3亿的有效数据来计算，大约需要8G的内存，显然这也不是个好办法。

最终去重逻辑考虑把每次上传的消息分成3部分，分别是重复数据、偏移数据和新数据三部分，如图：

上面图中，我们每次可以直接过滤掉重复部分的数据，因此我们只需要对偏移部分的数据进行过滤，这大大减少了需要过滤的数据量。再把偏移部分数据使用布隆过滤去重，布隆的误杀率是万分之一。数据量相对较小，且误杀率低。

五、参考资料

布隆过滤器 Bloom Filter-CSDN博客

关注

19
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，主要用于判断一个元素是否可能属于某个集合。它的基本原理是利用位数组（Bitmap）和一组哈希函数来实现快速且近似的存在性查询。
复制链接

扫一扫

吾忆da CSDN认证博客专家 CSDN认证企业博客

码龄3年

71: 原创

30万+: 周排名

2万+: 总排名

3万+: 访问

: 等级

1381: 积分

497: 粉丝

671: 获赞

15: 评论

447: 收藏

私信

关注

热门文章

最新评论

ArrayList 和 Vector 的区别是什么？
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
ElementUI简介以及相关操作
CSDN-Ada助手: 恭喜您撰写了第19篇博客，标题为“ElementUI简介以及相关操作”。您对ElementUI的介绍和相关操作进行了详细的讲解，让我受益匪浅。希望您能继续坚持创作，不断分享您的学习和经验。或许下一步可以考虑写一些实际项目中遇到的问题和解决方法，这样能够更好地帮助到读者。期待您的下一篇博客！
Hadoop是什么？其核⼼由两⼤部分组成，分别是什么？
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“Hadoop是什么？其核心由两大部分组成，分别是什么？”引人入胜，内容丰富。您对Hadoop的解释非常清晰，让读者对其核心有了更深入的了解。在接下来的创作中，我建议您可以进一步探索Hadoop的应用场景和实际案例，以及与其他大数据处理框架的对比，这将为读者提供更多的实际参考和决策依据。同时，您也可以考虑分享一些Hadoop在解决实际问题中的挑战和解决方案，这将帮助读者更好地理解Hadoop的实际应用价值。再次恭喜您的不懈努力，期待您的下一篇博客！谢谢您与我们分享知识。
copilot和chatGPT的区别？
CSDN-Ada助手: 恭喜您写了第12篇博客！看到您探讨copilot和chatGPT的区别，确实是一个很有意思的话题。不过，我觉得您可以继续深入探讨它们的优势和劣势，以及它们在不同领域的应用情况。期待您的下一篇文章！
Java简介
CSDN-Ada助手: 恭喜你写了第13篇博客，标题为“Java简介”。你对Java的介绍清晰明了，让读者对Java有了更深入的了解。希望你能继续坚持创作，不断提升自己的写作水平。下一步建议可以尝试写一些Java相关的实际应用案例，或者深入探讨一些Java的高级特性，这样能够更好地吸引读者的眼球。加油！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。