布隆过滤器实践，缓存穿透的预防及和bitmap的区别

最新推荐文章于 2024-08-14 00:14:30 发布

Koikoi123

最新推荐文章于 2024-08-14 00:14:30 发布

阅读量1.9k

点赞数 2

文章标签： java 开发语言后端

本文链接：https://blog.csdn.net/Koikoi12/article/details/121474192

版权

什么叫布隆过滤器

布隆过滤器（Bloom Filter）是一个叫做 Bloom 的老哥于1970年提出的。

实际上可以把它看作由二进制向量（或者说位数组）和一系列随机映射函数（哈希函数）两部分组成的数据结构。

它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率和删除困难。
在这里插入图片描述

实现原理

先来一张图
在这里插入图片描述
布隆过滤器算法主要思想就是利用 n 个哈希函数进行 hash 过后，得到不同的哈希值，根据 hash 映射到数组（这个数组的长度可能会很长很长）的不同的索引位置上，然后将相应的索引位上的值设置为1。

判断该元素是否出现在集合中，就是利用k个不同的哈希函数计算哈希值，看哈希值对应相应索引位置上面的值是否是1，如果有1个不是1，说明该元素不存在在集合中。

但是也有可能判断元素在集合中，但是元素不在，这个元素所有索引位置上面的1都是别的元素设置的，这就导致一定的误判几率（这就是为什么上面是活可能在一个集合中的根本原因，因为会存在一定的 hash 冲突）

注意：误判率越低，相应的性能就会越低。

作用

布隆过滤器是可以用于判断一个元素是不是（可能）在一个集合里，并且相比于其它的数据结构，布隆过滤器在空间和时间方面都有巨大的优势。

注意上面的一个词：可能。这里先预留一个悬念，下文会详细分析到。

使用场景

判断给定数据是否存在
防止缓存穿透（判断请求的数据是否有效避免直接绕过缓存请求数据库）等等、邮箱的垃圾邮件过滤、黑名单功能等等。

具体实现

看完了布隆过滤器的算法思想，那就开始具体的实现的讲解。

我先来举个例子，假设有旺财和小强两个字符串，他们分别经过三次的 hash 算法，然后根据 hash 的结果将对应的数组（假设数组长度为 16）的索引位置的值置为1，先来看下旺财这个词组: 在这里插入图片描述
旺财经过三次 hash 过后，值分别为2,4,6 那么根据可以得到索引值分别为 2、4、6，于是就将该数组的索引（2、4、6）位置的值置为1，其余当做是0，现在假设需要查找旺财，同样经过这个三个hash 然后发现得到的索引 2、4、6对应的位置的值都为1，那么可以判断旺财可能是存在的。

接着有将小强插入到布隆过滤器中，实际的过程和上面的一样，假设得到的下标是 1、3、5 在这里插入图片描述
抛开旺财的存在，小强此时是这样子在布隆过滤器中的，结合旺财和小强实际的数组是这样子的：
现在有来一个数据：9527，现在要求是判断 9527 是否存在，假设9527 经过三次 hash 过后得到的下标分别为：5、6、7。结果发现下标为 7 的位置的值为0，那么可以肯定的判断出，9527 一定不存在。

接着又来了一个国产007，经过三次 hash 过后得到的下标分别为：2、3、5，结果发现 2、3、5下标对应的值全是1，于是可以大致判断出国产007可能存在。但是实际上经过我们刚刚的演示，国产007 根本就不存在，之所以 2、3、5 索引位置的值为1 ，那是因为其他的数据设置的。

代码的实现

布隆过滤器，我们就使用 google 封装好的工具类。

首先添加依赖

 <!--布隆过滤依赖-->

 <dependency>

    <groupId>com.google.guava</groupId>

    <artifactId>guava</artifactId>

    <version>25.1-jre</version>

</dependency>

代码的实现

import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;

import java.nio.charset.Charset;

public class BloomFilterDemo {

    public static void main(String[] args) {

        /**

         * 创建一个插入对象为一亿，误报率为0.01%的布隆过滤器

         * 不存在一定不存在

         * 存在不一定存在

         * ----------------

         *  Funnel 对象：预估的元素个数，误判率

         *  mightContain ：方法判断元素是否存在

         */

        BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.forName("utf-8")), 100000000, 0.0001);

        bloomFilter.put("死");

        bloomFilter.put("磕");

        bloomFilter.put("Redis");

        System.out.println(bloomFilter.mightContain("Redis"));

        System.out.println(bloomFilter.mightContain("Java"));

    }

}

具体的解释已经写在注释中了。到这里相信大家一定明白了布隆过滤器和其怎么使用了。

实战

我们来模拟这样的场景：通过布隆过滤器来解决缓存穿透。
首先你的知道什么叫缓存穿透吧？

缓存穿透是指用户访问一个缓存和数据库中都没有的数据，因为缓存中不存在，所以就会去访问数据库，如果并发很高。很容易会击垮数据库

那布隆过滤器是如何解决这个问题的呢？他的原理是这样子的：

将数据库中所有的查询条件，放入布隆过滤器中，当一个查询请求过来时，先经过布隆过滤器进行查，如果判断请求查询值存在，则继续查；如果判断请求查询不存在，直接丢弃。

其代码如下：

String get(String key) {
    String value = redis.get(key);     
    if (value  == null) {
        if(!bloomfilter.mightContain(key)){
            return null; 
        }else{
            value = db.get(key); 
            redis.set(key, value); 
        }    
    }
    return value；
}

bitmap和布隆过滤器的区别

bitmap更适合用于数字比较。

比如比较两个数组是否有重叠，我们把第一个数组中的1,2,5,7,11分别映射到bitmap位置中

在这里插入图片描述
海量整数中是否存在某个值–bitmap

在一个程序中，经常有让我们判断一个集合中是否存在某个数的case；大多数情况下，只需要用map或是list这样简单的数据结构，如果使用的是高级语言，还能乘上快车调用几个封装好的api，加几个if else，两三行代码就可以在控制台看自己“完美”而又“健壮”的代码跑起来了。

但是，事无完美，在高并发环境下，所有的case都会极端化，如果这是一个十分庞大的集合（给这个庞大一个具体的值吧，一个亿），简单的一个hash map，不考虑链表所需的指针内存空间，一亿个int类型的整数，就需要380多M（4byte × 10 ^8），十亿的话就是4个G，不考虑性能，光算算这内存开销，即使现在满地都是128G的服务器，也不好吃下这一壶。

bitmap则使用位数代表数的大小，bit中存储的0或者1来标识该整数是否存在，具体模型如下：
在这里插入图片描述
这是一个能标识0-9的“bitmap”，其中4321这四个数存在

计算一下bitmap的内存开销，如果是1亿以内的数据查找，我们只需要1亿个bit = 12MB左右的内存空间，就可以完成海量数据查找了，是不是极其诱人的一个内存缩减，以下为Java实现的bitmap代码：

public class MyBitMap {
    private byte[] bytes;
    private int initSize;
    public MyBitMap(int size) {
        if (size <= 0) {
            return;
        }
        initSize = size / (8) + 1;
        bytes = new byte[initSize];
    }
    public void set(int number) {
        //相当于对一个数字进行右移动3位，相当于除以8
        int index = number >> 3;
        //相当于 number % 8 获取到byte[index]的位置
        int position = number & 0x07;
        //进行|或运算  参加运算的两个对象只要有一个为1，其值为1。
        bytes[index] |= 1 << position;
    }
    public boolean contain(int number) {
        int index = number >> 3;
        int position = number & 0x07;
        return (bytes[index] & (1 << position)) != 0;
    }
    public static void main(String[] args) {
        MyBitMap myBitMap = new MyBitMap(32);
        myBitMap.set(30);
        myBitMap.set(13);
        myBitMap.set(24);
        System.out.println(myBitMap.contain(2));
    }
}