面试官：请讲一下布隆过滤器

最新推荐文章于 2024-04-18 03:42:38 发布

田哥coder

最新推荐文章于 2024-04-18 03:42:38 发布

阅读量708

点赞数 1

我们在《Redis缓存穿透、缓存击穿和雪崩》中说过，解决缓存穿透的有效办法之一就是使用布隆过滤器。实际上，布隆过滤器不仅仅可以解决缓存穿透的问题，还被广泛应用于网页黑名单系统、垃圾邮件过滤系统、爬虫网址判重等系统，那到底什么是布隆过滤器，今天我们就来揭开它的神秘面纱。

PART

布隆过滤器的应用场景

我们先来看下布隆过滤器的应用场景，看看它到底能做什么。

1、解决（缓解）缓存穿透

我们经常会把一些热点数据放在Redis缓存中，比如产品信息等。当有查询请求进来时，我们可以根据产品Id直接去缓存中取数据，而不用读数据库，这是提升性能最简单，最普遍，也是最有效的做法。

一般的查询流程是这样的：先查缓存，有缓存的话直接返回，如果缓存中没有，再去查数据库，再把数据库取出来的数据放入缓存，一切看起来很美好。但是如果现在有大量请求进来，而且都在请求一个不存在的产品Id，会发生什么？既然产品Id都不存在，那么肯定没有缓存，没有缓存，那么大量的请求都怼到数据库，数据库的压力一下子就上来了，还有可能把数据库打死，这就是所谓的缓存穿透。

我们在《Redis缓存穿透、缓存击穿和雪崩》中说过，有很多办法可以解决缓存穿透，但我们今天的主角是“布隆过滤器”，“布隆过滤器”就可以解决（缓解）缓存穿透问题。至于为什么说是“缓解”，看下去你就明白了。

2、大量数据，判断某元素是否在其中

现在有大量的数据，而这些数据的大小已经远远超出了服务器的内存，现在再给你一个数据，如何判断给你的数据在不在其中。如果服务器的内存足够大，那么用HashMap是一个不错的解决方案，理论上的时间复杂度可以达到O(1)，但是现在数据的大小已经远远超出了服务器的内存，所以无法使用HashMap，这个时候就可以使用“布隆过滤器”来解决这个问题。

PART

什么是布隆过滤器

布隆过滤器是一个叫“布隆”的人提出的，它本身是一个很长的二进制向量，既然是二进制的向量，那么显而易见的，存放的不是0，就是1。

现在我们新建一个长度为16的布隆过滤器，默认值都是0，就像下面这样：

将一个元素X怎么加入布隆过滤器？

当一个元素X加入布隆过滤器时，将X作为参数，通过 K 个 Hash 函数将这个元素映射成 k 个值：K1、K2、K3...，然后把向量中下标为K1、K2、K3...的位置置为1 。

比如通过Hash1函数，计算出了Hash1(X)=5，我们就把下标为5的格子改成1，

又通过某个hash函数，比如Hash2，计算出了Hash2(X)=9，我们就把下标为9的格子改成1，

再通过某个hash函数，比如Hash3，计算出了Hash3(X)=2，我们再把下标为2的格子改成1，

这样，刚才添加的数据就占据了布隆过滤器下标为5、9、2的三个格子。

可以看出，布隆过滤器本身并没有存放完整的数据，只是运用一系列随机映射函数计算出位置，然后填充二进制向量。

这有什么用呢？比如现在再给你一个元素Y，你要判断Y在布隆过滤器中是否存在，怎么做？

你只需利用上面的三个hash函数，计算出元素Y占据哪些格子，然后看看这些格子里面放置的是否都是1，如果有一个格子不为1，那么就代表元素Y不在其中。这很好理解吧，比如现在又给了你一个刚才已经添加过的元素X，你通过三种hash函数，算出的结果肯定和上面的是一模一样的，也是占据了布隆过滤器“5”，“9”，“2”三个格子。

但是有一个问题需要注意，如果这些格子里面放置的都是1，不一定代表给定的数据一定重复，因为从概率上来讲，不同的入参，通过相同的Hash函数计算出来的值可能相等，这就是所谓的哈希碰撞。

也就是说布隆过滤器只能判断元素是否一定不存在，而无法判断数据是否一定存在。

按理来说，介绍完了布隆过滤器的新增、查询，就要介绍删除流程了，但很遗憾的是布隆过滤器是很难做到删除数据的，为什么？你想想，比如你要删除刚才加入的数据X，你是不是想把“5”，“9”，“2”三个格子都改成了0，显然这是不可行的，因为其他数据通过hash计算后可能也会映射到这三个格子上。

至此，我们就可以总结一下布隆过滤器的优缺点了：

优点：由于存放的不是完整的数据，所以占用的内存很少，而且新增，查询速度够快；
缺点：随着数据的增加，误判率随之增加；无法做到删除数据；只能判断数据是否一定不存在，而无法判断数据是否一定存在。

可以看到，布隆过滤器的优点和缺点一样明显。

在上面一开始我们假设的二进制向量长度为16，由三个随机映射函数计算映射位置，在实际开发中，如果你要添加大量的数据，仅仅16位是远远不够的，为了让误判率降低，我们还可以用更多的随机映射函数、更长的二进制向量去计算位置。

PART

Guava实现布隆过滤器

现在相信你对布隆过滤器应该有一个比较感性的认识了，布隆过滤器核心思想其实并不难，难点在于如何设计随机映射函数，到底映射几次，二进制向量的长度设置为多少比较好，这可能就不是一般的开发可以驾驭的了，好在Google大佬给我们提供了开箱即用的组件——Guava，来帮助我们实现布隆过滤器，现在就让我们看看怎么用Guava实现布隆过滤器吧。

首先引入pom

<dependency>
  <groupId>com.google.guava</groupId>
  <artifactId>guava</artifactId>
  <version>19.0</version>
</dependency>

guava实现布隆过滤器

package com.felix.service;


import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;


/**
 * @Copyright (C), 2019-2020, Felix
 * @ClassName: BloomFilterGuava
 * @Author: long.yuan
 * @E-mail: 18368916562@163.com
 * @Date: 2020/2/15 22:58
 * @Version: V1.0
 * @Description: guava实现布隆过滤器
 */
public class BloomFilterGuava {
    /**
     * 预计要插入多少数据
     */
    private static int size = 1000000;
    /**
     * 期望的误判率
     */
    private static double fpp = 0.01;
    /**
     * 创建布隆过滤器
     */
    private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size, fpp);


    public static void main(String[] args) {
        //插入数据
        for (int i = 0; i < 1000000; i++) {
            bloomFilter.put(i);
        }
        int count = 0;
        for (int i = 1000000; i < 2000000; i++) {
            if (bloomFilter.mightContain(i)) {
                count++;
                System.out.println(i + "误判了");
            }
        }
        System.out.println("总共的误判数:" + count);
    }
}

代码简单分析：

我们定义了一个布隆过滤器，有两个重要的参数，分别是 我们预计要插入多少数据，我们所期望的误判率，误判率不能为0。
我向布隆过滤器插入了0-1000000，然后用1000000-2000000来测试误判率。

运行结果：

现在总共有100万数据是不存在的，误判了10314次，我们计算下误判率

和我们定义的期望误判率0.01相差无几。

PART

Redis实现布隆过滤器

上面使用guava实现布隆过滤器是把数据放在本地内存中，无法实现布隆过滤器的共享，我们还可以把数据放在redis中，用 redis来实现布隆过滤器，我们要使用的数据结构是bitmap，你可能会有疑问，redis支持五种数据结构：String，List，Hash，Set，ZSet，没有bitmap呀。没错，实际上bitmap的本质还是String。

要用redis来实现布隆过滤器，需要我们自己设计映射函数，自己度量二进制向量的长度（这块代码的设计我是参考网上的），下面直接放出代码，供大家参考：

package com.felix.service;


import com.google.common.hash.Funnels;
import com.google.common.hash.Hashing;
import redis.clients.jedis.Jedis;


import java.nio.charset.Charset;


/**
 * @Copyright (C), 2019-2020, Felix
 * @ClassName: BloomFilterRedis
 * @Author: long.yuan
 * @E-mail: 18368916562@163.com
 * @Date: 2020/2/15 23:12
 * @Version: V1.0
 * @Description: 类的描述
 */


public class BloomFilterRedis {
    /**
     * 要插入多少数据
     */
    static final int expectedInsertions = 100;
    /**
     * 期望的误判率
     */
    static final double fpp = 0.01;
    /**
     * bit数组长度
     */
    private static long numBits;
    /**
     * hash函数数量
     */
    private static int numHashFunctions;


    static {
        numBits = optimalNumOfBits(expectedInsertions, fpp);
        numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, numBits);
    }


    /**
     * @Title 根据key获取bitmap下标
     * @Description 根据key获取bitmap下标
     * @Author long.yuan
     * @Date 2020/2/15 23:28
     * @Param [key]
     * @return long[]
     **/
    private static long[] getIndexs(String key) {
        long hash1 = hash(key);
        long hash2 = hash1 >>> 16;
        long[] result = new long[numHashFunctions];
        for (int i = 0; i < numHashFunctions; i++) {
            long combinedHash = hash1 + i * hash2;
            if (combinedHash < 0) {
                combinedHash = ~combinedHash;
            }
            result[i] = combinedHash % numBits;
        }
        return result;
    }


    /**
     * @Title Hash方法
     * @Description Hash方法
     * @Author long.yuan
     * @Date 2020/2/15 23:28
     * @Param [key]
     * @return long
     **/
    private static long hash(String key) {
        Charset charset = Charset.forName("UTF-8");
        return Hashing.murmur3_128().hashObject(key, Funnels.stringFunnel(charset)).asLong();
    }


    /**
     * @Title 计算hash函数个数
     * @Description 计算hash函数个数
     * @Author long.yuan
     * @Date 2020/2/15 23:28
     * @Param [n, m]
     * @return int
     **/
    private static int optimalNumOfHashFunctions(long n, long m) {
        return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
    }


    /**
     * @Title 计算bit数组长度
     * @Description 计算bit数组长度
     * @Author long.yuan
     * @Date 2020/2/15 23:28
     * @Param [n, p]
     * @return long
     **/
    private static long optimalNumOfBits(long n, double p) {
        if (p == 0) {
            p = Double.MIN_VALUE;
        }
        return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
    }


    public static void main(String[] args) {
        Jedis jedis = new Jedis("主机IP",6379);
        jedis.auth("连接密码");
        for (int i = 0; i < 100; i++) {
            long[] indexs = getIndexs(String.valueOf(i));
            for (long index : indexs) {
                jedis.setbit("felix:bloom", index, true);
            }
        }
        for (int i = 0; i < 100; i++) {
            long[] indexs = getIndexs(String.valueOf(i));
            for (long index : indexs) {
                Boolean isContain = jedis.getbit("felix:bloom", index);
                if (!isContain) {
                    System.out.println(i + "肯定没有重复");
                }
            }
            System.out.println(i + "可能重复");
        }
    }
}

运行结果：