布隆过滤器

想做托尼老师的码农

于 2021-04-26 16:32:30 发布

阅读量162

点赞数

分类专栏：数据结构文章标签：过滤器

本文链接：https://blog.csdn.net/u010793040/article/details/116161132

版权

数据结构专栏收录该内容

2 篇文章 0 订阅

订阅专栏

布隆过滤器是一种空间效率极高的概率型数据结构，用于判断一个元素是否在一个集合中。它通过多个哈希函数将元素映射到位数组中，可能存在误判但不会漏判。适用于大数据集的快速存在性判断，例如缓存穿透预防、URL去重等场景。Google Guava库提供了布隆过滤器实现，而Redis的模块功能也支持分布式环境下的布隆过滤器应用。

摘要由CSDN通过智能技术生成

概念

它本身是一个很长的二进制向量，既然是二进制的向量，那么显而易见的，存放的不是0，就是1。

只能判断数据是否一定不存在，而无法判断数据是否一定存在。

原理

当一个元素加入布隆过滤器中的时候，会进行如下操作：

使用布隆过滤器中的哈希函数对元素值进行计算，得到哈希值（有几个哈希函数得到几个哈希值）。
根据得到的哈希值，在位数组中把对应下标的值置为 1。

当我们需要判断一个元素是否存在于布隆过滤器的时候，会进行如下操作：

对给定元素再次进行相同的哈希计算；
得到值之后判断位数组中的每个元素是否都为 1，如果值都为 1，那么说明这个值可能存在在布隆过滤器中，如果存在一个值不为 1，说明该元素不在布隆过滤器中。

不同的字符串可能哈希出来的位置相同，所以布隆过滤器说某个元素存在，小概率会误判。

例子：

如果我们要映射一个值到布隆过滤器中，我们需要使用多个不同的哈希函数生成多个哈希值，并对每个生成的哈希值指向的 bit 位置 1。现在我们如果想查询 “dianping” 这个值是否存在，哈希函数返回了 1、5、8三个值，结果我们发现 5 这个 bit 位上的值为 0，说明没有任何一个值映射到这个 bit 位上，因此我们可以很确定地说 “dianping” 这个值不存在

布隆过滤器使用场景

判断给定数据是否存在：比如判断一个数字是否存在于包含大量数字的数字集中（数字集很大，5亿以上！）、防止缓存穿透（判断请求的数据是否有效避免直接绕过缓存请求数据库）等等、邮箱的垃圾邮件过滤、黑名单功能等等。
去重：比如爬给定网址的时候对已经爬取过的 URL 去重。

Google开源的 Guava中自带的布隆过滤器

我们创建了一个最多存放最多 1500个整数的布隆过滤器，并且我们可以容忍误判的概率为百分之（0.01）

  // 创建布隆过滤器对象
        BloomFilter<Integer> filter = BloomFilter.create(
                Funnels.integerFunnel(),
                1500,
                0.01);
        // 判断指定元素是否存在
        System.out.println(filter.mightContain(1));
        System.out.println(filter.mightContain(2));
        // 将元素添加进布隆过滤器
        filter.put(1);
        filter.put(2);
        System.out.println(filter.mightContain(1));
        System.out.println(filter.mightContain(2));

在我们的示例中，当mightContain（）方法返回true时，我们可以99％确定该元素在过滤器中，当过滤器返回false时，我们可以100％确定该元素不存在于过滤器中。

Guava 提供的布隆过滤器的实现还是很不错的（想要详细了解的可以看一下它的源码实现），但是它有一个重大的缺陷就是只能单机使用（另外，容量扩展也不容易），而现在互联网一般都是分布式的场景。为了解决这个问题，我们就需要用到 Redis 中的布隆过滤器了。

Redis 中的布隆过滤器

Redis v4.0 之后有了 Module（模块/插件）功能，Redis Modules 让 Redis 可以使用外部模块扩展其功能。布隆过滤器就是其中的 Module

想做托尼老师的码农

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器

概念它本身是一个很长的二进制向量，既然是二进制的向量，那么显而易见的，存放的不是0，就是1。只能判断数据是否一定不存在，而无法判断数据是否一定存在。原理当一个元素加入布隆过滤器中的时候，会进行如下操作：使用布隆过滤器中的哈希函数对元素值进行计算，得到哈希值（有几个哈希函数得到几个哈希值）。根据得到的哈希值，在位数组中把对应下标的值置为 1。当我们需要判断一个元素是否存在于布隆过滤器的时候，会进行如下操作：对给定元素再次进行相同的哈希计算；得到值之后判断位数组中的每个元素是否
复制链接

扫一扫

专栏目录