布隆过滤器

m0_55634284

已于 2024-01-19 16:15:02 修改

阅读量947

点赞数 22

分类专栏：更精简的笔记文章标签： redis

于 2024-01-08 20:35:39 首次发布

本文链接：https://blog.csdn.net/m0_55634284/article/details/135465950

版权

更精简的笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了布隆过滤器的基本概念，包括其定义、添加和查找过程，以及优缺点。重点讨论了在缓存击穿、URL去重、用户行为识别和Web拦截器等场景中的应用，并提到了布隆过滤器的局限性，如误判率和无法确定数据存在性。

摘要由CSDN通过智能技术生成

还是总结了一下，网上的帖子太长不想看

8.布隆过滤器

定义：一种数据结构，是由一串很长的二进制向量组成(二进制数组)，初始默认值都是0

Snipaste_2024-01-08_19-08-37

添加

添加一个元素key时，通过多个hash函数算出一个值，然后将这个值所在的方格置为1

Snipaste_2024-01-08_19-14-47

查找

将这个新的数据通过上面自定义的几个哈希函数分别算出各个值，然后看其对应的地方是否都是1，如存在一个不是1的，那该数据一定不存在这个布隆过滤器中

布隆过滤器优缺点

优点：二进制组成的数组，占用内存少，且插入和查询速度都快(支持海量数据场景下高效判断元素是否存在)

缺点：随着数据增加误判率增加；无法判断数据一定存在；无法删除数据

使用

UUID.randomUUID().toString()生成的随机数是不重复的，所以下面可以用来看重复率

 @Test
    public void testOss() {
        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), 5000000, 0.01);
        List<String> list = new ArrayList<>(5000000);
        for (int i = 0; i < 5000000; i++) {
            String uuid = UUID.randomUUID().toString();
            bloomFilter.put(uuid);
            list.add(uuid);
        }
        NumberFormat percentFormat = NumberFormat.getPercentInstance();
        percentFormat.setMaximumFractionDigits(2);
        int mightContainNumber2 = 0;
        for (int i = 0; i < 5000000; i++) {
            String key = UUID.randomUUID().toString();
            if (bloomFilter.mightContain(key)) {
                mightContainNumber2++;  //看这50000次生成的随机数，在之前生成后放入布隆过滤器中有多少重复，有的就是误判的
            }
        }
        System.out.println("【key不存在的情况】布隆过滤器认为存在的key值数：" + mightContainNumber2);
        System.out.println("【key不存在的情况】布隆过滤器的误判率为：" + percentFormat.format((float) mightContainNumber2 / 5000000));
    }
    
【key不存在的情况】布隆过滤器认为存在的key值数：50256
【key不存在的情况】布隆过滤器的误判率为：1.01%