【Redis系列8】如何利用一个支持元素删除的布隆过滤器来解决缓存穿透问题-CSDN博客

本文链接：https://blog.csdn.net/2301_79835671/article/details/137978964

本文探讨了缓存击穿和缓存雪崩的解决方案，包括加锁、接口层校验和布隆过滤器的应用。重点介绍了布隆过滤器的工作原理、误判率控制以及在Java开发中的应用，为Java工程师的面试和性能优化提供参考。

摘要由CSDN通过智能技术生成

缓存击穿和缓存雪崩很类似，区别就是缓存击穿一般指的是单个缓存失效，而同一时间又有很大的并发请求需要访问这个key，从而造成了数据库的压力。

解决方案

解决缓存击穿的方法和解决缓存雪崩的方法很类似：

1、加锁，保证单线程访问缓存。这样第一个请求到达数据库后就会重新写入缓存，后续的请求就可以直接读取缓存。
2、内存允许的情况下，可以将缓存设置为永不失效。

缓存穿透

=================================================================

缓存穿透和上面两种现象的本质区别就是这时候访问的数据其在数据库中也不存在，那么既然数据库不存在，所以缓存里面肯定也不会存在，这样如果并发过大就会造成数据源源不断的到达数据库，给数据库造成极大压力。

解决方案

对于缓存穿透问题，加锁并不能起到很好地效果，因为本身key就是不存在，所以即使控制了线程的访问数，但是请求还是会源源不断的到达数据库。

解决缓存穿透问题一般可以采用以下方案配合使用：

1、接口层进行校验，发现非法的key直接返回。比如数据库中采用的是自增id，那么如果来了一个非整型的id或者负数id可以直接返回，或者说如果采用的是32位uuid，那么发现id长度不等于32位也可以直接返回。
2、将不存在的数据也进行缓存，可以直接缓存一个空或者其他约定好的无效value。采用这种方案最好将key设置一个短期失效时间，否则大量不存在的key被存储到Redis中，也会占用大量内存。

布隆过滤器（Bloom Filter）

================================================================================

针对上面缓存穿透的解决方案，我们思考一下：假如一个key可以绕过第1种方法的校验，而此时有大量的不存在key被访问（如1亿个或者10亿个），那么这时候全部存储到缓存，会占用非常大的空间，会浪费大量服务器内存，导致内存不足。

那么有没有一种更好的解决方案呢？这就是我们接下来要介绍的布隆过滤器，布隆过滤器就可以最大程度的解决key值过多的这个问题。

什么是布隆过滤器

可能大部分人都知道有这么一个面试问题：如何在10亿的海量的无序的数据中快速判断一个元素是否存在？

要解决这个问题就需要用到布隆过滤器，否则大部分服务器的内存是无法存储这么大的数量级的数据的。

布隆过滤器（Bloom Filter）是由布隆在1970年提出的。它实际上是一个很长的二进制向量（位图）和一系列随机映射函数（哈希函数）。

布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率而且删除困难。

位图（Bitmap）

Redis当中有一种数据结构就是位图，布隆过滤器其中重要的实现就是位图的实现，也就是位数组，并且在这个数组中每一个位置只有0和1两种状态，每个位置只占用1个比特(bit)，其中0表示没有元素存在，1表示有元素存在。如下图所示就是一个简单的布隆过滤器示例（一个key值经过哈希运算和位运算就可以得出应该落在哪个位置）：

在这里插入图片描述

哈希碰撞

上面我们发现，lonely和wolf落在了同一个位置，这种不同的key值经过哈希运算后得到相同值的现象就称之为哈希碰撞。发生哈希碰撞之后再经过位运算，那么最后肯定会落在同一个位置。

如果发生过多的哈希碰撞，就会影响到判断的准确性，所以为了减少哈希碰撞，我们一般会综合考虑以下2个因素：

1、增大位图数组的大小（位图数组越大，占用的内存越大）。
2、增加哈希函数的次数（同一个key值经过1个函数相等了，那么经过2个或者更多个哈希函数的计算，都得到相等结果的概率就自然会降低了）。

上面两个方法我们需要综合考虑：比如增大位数组，那么就需要消耗更多的空间，而经过越多的哈希计算也会消耗cpu影响到最终的计算时间，所以位数组到底多大，哈希函数次数又到底需要计算多少次合适需要具体情况具体分析。

布隆过滤器的2大特点

下面这个就是一个经过了2次哈希函数得到的布隆过滤器，根据下图我们很容易看到，假如我们的Redis根本不存在，但是Redis经过2次哈希函数之后得到的两个位置已经是1了（一个是wolf通过f2得到，一个是Nosql通过f1得到）。

在这里插入图片描述

所以通过上面的现象，我们从布隆过滤器的角度可以得出布隆过滤器主要有2大特点：

1、如果布隆过滤器判断一个元素存在，那么这个元素可能存在。
2、如果布隆过滤器判断一个元素不存在，那么这个元素一定不存在。

而从元素的角度也可以得出2大特点：

1、如果元素实际存在，那么布隆过滤器一定会判断存在。
2、如果元素不存在，那么布隆过滤器可能会判断存在。

PS：需要注意的是，如果经过N次哈希函数，则需要得到的N个位置都是1才能判定存在，只要有一个是0，就可以判定为元素不存在布隆过滤器中。

fpp

因为布隆过滤器中总是会存在误判率，因为哈希碰撞是不可能百分百避免的。布隆过滤器对这种误判率称之为假阳性概率，即：False Positive Probability，简称为fpp。

在实践中使用布隆过滤器时可以自己定义一个fpp，然后就可以根据布隆过滤器的理论计算出需要多少个哈希函数和多大的位数组空间。需要注意的是这个fpp不能定义为100%，因为无法百分保证不发生哈希碰撞。

布隆过滤器的实现(Guava)

在Guava的包中提供了布隆过滤器的实现，下面就通过Guava来体会一下布隆过滤器的应用：

1、引入pom依赖

com.google.guava

guava

29.0-jre

2、新建一个布隆过滤器的测试demo：

package com.lonelyWolf.redis;

import com.google.common.base.Charsets;

import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;

import java.text.NumberFormat;

import java.util.ArrayList;

import java.util.List;

import java.util.UUID;

public class BloomFilterDemo {

private static final int expectedInsertions = 1000000;

public static void main(String[] args) {

BloomFilter bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8),expectedInsertions);

List list = new ArrayList<>(expectedInsertions);

for (int i = 0; i < expectedInsertions; i++) {

String uuid = UUID.randomUUID().toString();

bloomFilter.put(uuid);

list.add(uuid);

}

int rightNum1 = 0;

int wrongNum1 = 0;

NumberFormat percentFormat =NumberFormat.getPercentInstance();

percentFormat.setMaximumFractionDigits(2); //最大小数位数

for (int i=0;i < 500;i++){

String key = list.get(i);

if (bloomFilter.mightContain(key)){

if (list.contains(key)){

rightNum1++;

}else {

wrongNum1++;

}

System.out.println(“布隆过滤器认为存在的key值数：” + rightNum1);

System.out.println(“-----------------------分割线---------------------------------”);

int rightNum2 = 0;

int wrongNum2 = 0;

for (int i=0;i < 5000;i++){

String key = UUID.randomUUID().toString();

if (bloomFilter.mightContain(key)){

if (list.contains(key)){

rightNum2++;

}else {

wrongNum2++;

}

System.out.println(“布隆过滤器认为存在的key值数：” + rightNum2);

System.out.println(“布隆过滤器认为不存在的key值数：” + wrongNum2);

System.out.println(“布隆过滤器的误判率为：” + percentFormat.format((float)wrongNum2 / 5000));

}

运行之后，第一部分输出的值一定是和for循环内的值相等，也就是百分百匹配，即满足了原则1：如果元素实际存在，那么布隆过滤器一定会判断存在。

第二部分的输出的误判率即fpp总是在3%左右，而且随着for循环的次数越大，越接近3%。即满足了原则2：如果元素不存在，那么布隆过滤器可能会判断存在。

这个3%的误判率是如何来的呢？我们进入创建布隆过滤器的create方法，发现默认的fpp就是0.03：

在这里插入图片描述

对于这个默认的3%的fpp需要多大的位数组空间和多少次哈希函数得到的呢？在BloomFilter类下面有两个default方法可以获取到位数组空间大小和哈希函数的个数：

optimalNumOfHashFunctions：获取哈希函数的次数
optimalNumOfBits：获取位数组大小

debug进去看一下：

在这里插入图片描述

得到的结果是7298440 bit=0.87M，然后经过了5次哈希运算。可以发现这个空间占用是非常小的，100W的key才占用了0.87M。

PS：点击这里可以进入网站计算bit数组大小和哈希函数个数。

布隆过滤器的如何删除

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注Java获取）

总结

就写到这了，也算是给这段时间的面试做一个总结，查漏补缺，祝自己好运吧，也希望正在求职或者打算跳槽的程序员看到这个文章能有一点点帮助或收获，我就心满意足了。多思考，多问为什么。希望小伙伴们早点收到满意的offer! 越努力越幸运！

金九银十已经过了，就目前国内的面试模式来讲，在面试前积极的准备面试，复习整个 Java 知识体系将变得非常重要，可以很负责任的说一句，复习准备的是否充分，将直接影响你入职的成功率。但很多小伙伴却苦于没有合适的资料来回顾整个 Java 知识体系，或者有的小伙伴可能都不知道该从哪里开始复习。我偶然得到一份整理的资料，不论是从整个 Java 知识体系，还是从面试的角度来看，都是一份含技术量很高的资料。

三面蚂蚁核心金融部，Java开发岗（缓存+一致性哈希+分布式）