布隆过滤器BloomFilter

最新推荐文章于 2024-01-12 16:40:02 发布

董广明

最新推荐文章于 2024-01-12 16:40:02 发布

阅读量321

点赞数

分类专栏：工具 redis 文章标签： java 数据结构算法

本文链接：https://blog.csdn.net/dong19891210/article/details/106935869

版权

1. 什么是布隆过滤器及其原理

布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

如果想判断一个元素是不是在一个集合里，一般想到的是将集合中所有元素保存起来，然后通过比较确定。链表、树、散列表（又叫哈希表，Hash table）等等数据结构都是这种思路。但是随着集合中元素的增加，我们需要的存储空间越来越大。同时检索速度也越来越慢，上述三种结构的检索时间复杂度分别为：O(n), O(log n), O(n/k)。

布隆过滤器的原理是，当一个元素被加入集合时，通过K个Hash函数将这个元素映射成一个位数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。这就是布隆过滤器的基本思想。

2. 布隆过滤器的应用场景

我们在确定一个元素是否在集合中，常用的方法就是把数据存入集合，比如Set或者Map等。在数据量比较小的时候，没有什么问题，但是随着数据量的增多，比如几十亿个元素的时候，会占用很大的内存，内存不一定能支持这么大的数据。用集合就不太适合了，可能会想到用数据库，这个是一个方法，但是数据量很大的时候，这个也不是一个很优的选择。

这个时候布隆过滤器就派上了用场，用布隆过滤器可以存储很大数据量的数据。因此可以用作大量网页URL的去重，垃圾邮件的判别等。

3. java版代码实现

在实际应用当中，我们不需要自己去实现BloomFilter，可以使用Guava提供的相关类库即可。

     <!--lombok实体工具-->
 <dependency>
      <groupId>org.projectlombok</groupId>
      <artifactId>lombok</artifactId>
      <optional>true</optional>
    </dependency>
     <!--guava工具-->
<dependency>
			<groupId>com.google.guava</groupId>
			<artifactId>guava</artifactId>
			<version>21.0</version>
		</dependency>

3 .1 判断一个元素是否在集合中

最低0.47元/天解锁文章

董广明

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器BloomFilter

1.什么是布隆过滤器及其原理布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。如果想判断一个元素是不是在一个集合里，一般想到的是将集合中所有元素保存起来，然后通过比较确定。链表、树、散列表（又叫哈希表，Hash table）等等数据结构都是这种思路。但是随着集合中元素的增加，我们需要的存储空间越来越大..
复制链接

扫一扫