布隆过滤器 - Bloom Filter

最新推荐文章于 2024-01-12 16:40:02 发布

寒暄丶

最新推荐文章于 2024-01-12 16:40:02 发布

阅读量949

点赞数 2

本文链接：https://blog.csdn.net/qq_26368081/article/details/106419134

版权

布隆过滤器是一种节省空间的数据结构，用于在大数据量场景下判断元素是否存在，常用于去重、缓存穿透预防等。其通过多个哈希函数将元素映射到位数组，存在误判概率但能极大地节省存储。在实际使用中，需注意元素数量与初始化大小的匹配，避免误判率过高。

摘要由CSDN通过智能技术生成

参考链接：
1：JavaGuide - 布隆过滤器
2：亿级数据过滤和布隆过滤器

P：我们平时在刷抖音时，开发人员如何保证 不会刷到同样的内容 ？

1：在数据量很大(5亿以上)的场景下判断某一数据是否存在。对比hashMap节省了很大的存储空间
2：黑名单、邮箱的垃圾邮件过滤。正常邮件被放入垃圾邮箱，就是布隆过滤器的误判导致
3：去重。例如爬虫时，对已经爬取过的内容去重
4：缓存穿透（非法用户会使用一般数据库里没有的key来进行访问导致请求一直打到数据库，导致数据库崩溃）。布隆过滤器删除key困难（会影响其他key），更建议直接使用redis set（设置过期时间）

布隆过滤器（Bloom Filter）1970年由Bloom的老哥提出

它由一个二进制数组来记录数据的相关性,数组中只有1或0

二进制数组的优势：申请一个 100w 个元素的位数组只占用 1000000Bit / 8 = 125000 Byte = 125000/1024 kb ≈ 122kb 的空间。

因为数组为固定长度，在数据量越多而空间越少的情况，判断误差率会变大

当一个元素加入布隆过滤器时：

当判断一个元素是否存在时：

关注