Redis(五)--详解布隆过滤器和缓存穿透解决方案

最新推荐文章于 2024-05-09 18:19:33 发布

置顶

奔跑的小车车

最新推荐文章于 2024-05-09 18:19:33 发布

阅读量5.3k

点赞数

分类专栏： java JavaEE 文章标签： redis python RedisTemplate

本文链接：https://blog.csdn.net/u013074999/article/details/88981153

版权

一、使用场景

1.布隆过滤器的特性是：去重,多数去重场景都跟这个特性有关。比如爬虫的时候去掉相同的URL，推送消息去掉相同的消息等。

2.解决缓存击穿的问题。

3.反垃圾邮件，从数十亿个垃圾邮件列表中判断某邮箱是否垃圾邮箱(同理，垃圾短信).

二、概念

其内部维护一个全为0的bit数组，需要说明的是，布隆过滤器有一个误判率的概念，误判率越低，则数组越长，所占空间越大。误判率越高则数组越小，所占的空间越小。

我们可以通过一个int型的整数的32比特位来存储32个10进制的数字，那么这样所带来的好处是内存占用少、效率很高（不需要比较和位移）比如我们要存储5(101)、3(11)四个数字，那么我们申请int型的内存空间，会有32个比特位。这四个数字的二进制分别对应从右往左开始数，比如第一个数字是5，对应的二进制数据是101, 那么从右往左数到第5位，把对应的二进制数据存储到32个比特位上。

第一个5就是 00000000000000000000000000101000

输入3时候 00000000000000000000000000001100

如何生成一个布隆过滤器？

原理如下假设集合里面有3个元素{x, y, z}，哈希函数的个数为3。首先将位数组进行初始化，将里面每个位都设置位0。对于集合里面的每一个元素，将元素依次通过3个哈希函数进行映射，每次映射都会产生一个哈希值，这个值对应位数组上面的一个点，然后将位数组对应的位置标记为1。接下来按照该方法处理所有的输入对象，每个对象都可能把bitMap中一些白位置涂黑，也可能会遇到已经涂黑的位置，遇到已经为黑的让他继续为黑即可。处理完所有的输入对象之后，在bitMap中可能已经有相当多的位置已经被涂黑。至此，一个布隆过滤器生成完成，这个布隆过滤器代表之前所有输入对象组成的集合。(向布隆过滤器中添加 key 时，会使用多个 hash 函数对 key 进行 hash 算得一个整数索引值然后对位数组长度进行取模运算得到一个位置，每个 hash 函数都会算得一个不同的位置。再把位数组的这几个位置都置为 1 就完成了 add 操作。)

如何去判断一个元素是否存在bit array中呢？

原理是一样，根据k个哈希函数去得到的结果，如果所有的结果都是1，表示这个元素可能（假设某个元素通过映射对应下标为4，5，6这3个点。虽然这3个点都为1，但是很明显这3个点是不同元素经过哈希得到的位置，因此这种情况说明元素虽然不在集合中，也可能对应的都是1）存在。如果一旦发现其中一个比特位的元素是0，表示这个元素一定不存在至于k个哈希函数的取值为多少，能够最大化的降低错误率（因为哈希函数越多，映射冲突会越少），这个地方就会涉及到最优的哈希函数个数的一个算法逻辑。(向布隆过滤器询问 key 是否存在时，跟 add 一样，也会把 hash 的几个位置都算出来，看看位数组中这几个位置是否都为 1，只要有一个位为 0，那么说明布隆过滤器中这个 key 不存在。如果都是 1，这并不能说明这个 key 就一定存在，只是极有可能存在，因为这些位被置为 1 可能是因为其它的 key 存在所致。如果这个位数组比较稀疏，判断正确的概率就会很大，如果这个位数组比较拥挤，判断正确的概率就会降低。)

它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

三、项目实战

1.命令模式，Redis 官方提供的布隆过滤器到了 Redis 4.0 提供了插件功能之后。

可以使用docker容器进行安装，docker容器安装可以参照之前的文章。

# 拉取镜像
  docker pull redislabs/rebloom  
  # 运行容器
  docker run -p  6379:6379 redislabs/rebloom  
  # 连接容器中的 redis 服务
  docker exec -it 1a7ca288bcbe redis-cli

命令：

最低0.47元/天解锁文章

奔跑的小车车

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Redis(五)--详解布隆过滤器和缓存穿透解决方案

一、使用场景1.布隆过滤器的特性是：去重,多数去重场景都跟这个特性有关。比如爬虫的时候去掉相同的URL，推送消息去掉相同的消息等。2.解决缓存击穿的问题。3.反垃圾邮件，从数十亿个垃圾邮件列表中判断某邮箱是否垃圾邮箱(同理，垃圾短信).二、概念其内部维护一个全为0的bit数组，需要说明的是，布隆过滤器有一个误判率的概念，误判率越低，则数组越长，所占空间越大。误判...
复制链接

扫一扫