布隆过滤器原理与场景

最新推荐文章于 2023-06-07 16:36:15 发布

Kindle_code

最新推荐文章于 2023-06-07 16:36:15 发布

阅读量204

点赞数

分类专栏：并发分布式 java 文章标签：过滤器 redis

本文链接：https://blog.csdn.net/Kindle_code/article/details/107676286

版权

23 篇文章 0 订阅

订阅专栏

8 篇文章 1 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

一个很长的二进制向量和一系列随机映射函数。
通过设置向量数组长度与定义多种随机hash函数，正向预热数据，反向查询数据。使用的hash函数越多，区分度就越高。

大数据判断是否存在：这就可以实现出上述的去重功能，如果你的服务器内存足够大的话，那么使用 HashMap 可能是一个不错的解决方案，理论上时间复杂度可以达到 O(1 的级别，但是当数据量起来之后，还是只能考虑布隆过滤器。
解决缓存穿透：我们经常会把一些热点数据放在 Redis 中当作缓存，例如产品详情。通常一个请求过来之后我们会先查询缓存，而不用直接读取数据库，这是提升性能最简单也是最普遍的做法，但是如果一直请求一个不存在的缓存，那么此时一定不存在缓存，那就会有大量请求直接打到数据库上，造成缓存穿透，布隆过滤器也可以用来解决此类问题。
爬虫/ 邮箱等系统的过滤：平时不知道你有没有注意到有一些正常的邮件也会被放进垃圾邮件目录中，这就是使用布隆过滤器误判导致的。
抖音重复内容不再推荐
一段时间内短信发送去重

1、Google 的 Guava 实现内存中的布隆过滤器，提供了封装了多种hash算法，根据参数逆向计算槽的长度与hash算法的使用的维度
2、Redis使用bitmap，需手动实现hash算法

1、它在判断元素是否在集合中时是有一定错误几率的，比如它会把不是集合中的元素判断为处在集合中；
增加多个hash算法，减少碰撞率
2、不支持删除元素。
根据业务场景，有hash位计数(增加空间复杂度)

1、选择多个 Hash 函数计算多个 Hash 值，这样可以减少误判的几率
2、布隆过滤器会消耗一定的内存空间，所以在使用时需要评估你的业务场景下需要多大的内存，存储的成本是否可以接受。

关注

专栏目录