Bloom Filter 使用介绍

算法背景

如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定。链表、树、散列表(又叫哈希表,Hash table)等等数据结构都是这种思路,存储位置要么是磁盘,要么是内存。很多时候要么是以时间换空间,要么是以空间换时间。

在响应时间要求比较严格的情况下,如果我们存在内里,那么随着集合中元素的增加,我们需要的存储空间越来越大,以及检索的时间越来越长,导致内存开销太大、时间效率变低。

 

此时需要考虑解决的问题就是,在数据量比较大的情况下,既满足时间要求,又满足空间的要求。即我们需要一个时间和空间消耗都比较小的数据结构和算法。Bloom Filter就是一种解决方案。

 

Bloom Filter 概念

布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。

 

Bloom Filter 原理

 

布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。

 

 

Bloom Filter跟单哈希函数Bit-Map不同之处在于:Bloom Filter使用了k个哈希函数,每个字符串跟k个bit对应。从而降低了冲突的概率。

 

 

Bloom Filter的缺点

 

bloom filter之所以能做到在时间和空间上的效率比较高,是因为牺牲了判断的准确率、删除的便利性

  • 存在误判,可能要查到的元素并没有在容器中,但是hash之后得到的k个位置上值都是1。如果bloom filter中存储的是黑名单,那么可以通过建立一个白名单来存储可能会误判的元素。
  • 删除困难。一个放入容器的元素映射到bit数组的k个位置上是1,删除的时候不能简单的直接置为0,可能会影响其他元素的判断。可以采用Counting Bloom Filter

 

 

Bloom Filter 实现

布隆过滤器有许多实现与优化,Guava中就提供了一种Bloom Filter的实现。

 

在使用bloom filter时,绕不过的两点是预估数据量n以及期望的误判率fpp,

在实现bloom filter时,绕不过的两点就是hash函数的选取以及bit数组的大小。

 

对于一个确定的场景,我们预估要存的数据量为n,期望的误判率为fpp,然后需要计算我们需要的Bit数组的大小m,以及hash函数的个数k,并选择hash函数

 

(1)Bit数组大小选择 

     根据预估数据量n以及误判率fpp,bit数组大小的m的计算方式:

 

(2)哈希函数选择

           由预估数据量n以及bit数组长度m,可以得到一个hash函数的个数k:

           哈希函数的选择对性能的影响应该是很大的,一个好的哈希函数要能近似等概率的将字符串映射到各个Bit。选择k个不同的哈希函数比较麻烦,一种简单的方法是选择一个哈希函数,然后送入k个不同的参数。

 

 

哈希函数个数k、位数组大小m、加入的字符串数量n的关系可以参考

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hutool BloomFilter 是一个基于布隆过滤器算法实现的工具类库,可以快速判断一个元素是否存在于大规模数据集中。它具有空间效率高、查询速度快等优点,常用于缓存、去重、反垃圾邮件等场景。 下面是使用 Hutool BloomFilter 的步骤: 1. 引入 Hutool BloomFilter 依赖 ```xml <dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-bloomfilter</artifactId> <version>5.7.8</version> </dependency> ``` 2. 创建 BloomFilter 实例 ```java BloomFilter<String> bloomFilter = new BloomFilter<>(1000000, 0.01); ``` 这里创建了一个容量为 1000000,误差率为 0.01 的 BloomFilter 实例。 3. 添加元素到 BloomFilter 中 ```java bloomFilter.add("hello"); bloomFilter.add("world"); ``` 通过 add 方法将元素添加到 BloomFilter 中。 4. 判断元素是否存在于 BloomFilter 中 ```java boolean exists = bloomFilter.contains("hello"); ``` 使用 contains 方法判断元素是否存在于 BloomFilter 中。 完整示例代码: ```java import cn.hutool.core.lang.Console; import cn.hutool.bloomfilter.BloomFilter; public class BloomFilterDemo { public static void main(String[] args) { BloomFilter<String> bloomFilter = new BloomFilter<>(1000000, 0.01); bloomFilter.add("hello"); bloomFilter.add("world"); boolean exists = bloomFilter.contains("hello"); Console.log(exists); exists = bloomFilter.contains("hutool"); Console.log(exists); } } ``` 输出结果: ``` true false ``` 注意:BloomFilter 是一个概率性数据结构,误判率与容量和哈希函数数量有关。在实际使用中,需要根据实际情况选择合适的参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值