布隆过滤器初探

最新推荐文章于 2024-07-09 16:17:35 发布

Thinking Town

最新推荐文章于 2024-07-09 16:17:35 发布

阅读量671

点赞数 28

分类专栏： Java 文章标签： guava java

本文链接：https://blog.csdn.net/qq_43618881/article/details/137967793

版权

Java 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、什么是布隆过滤器

布隆过滤器是一个很长的二进制向量和一系列随机hash函数。布隆过滤器可以用于检索一个元素是否在一个集合中。
常见的hash函数的应用hashMap、hashSet等
回顾一下hashMap的结构
在这里插入图片描述

hashMap由数组+链表+红黑树（java1.8后，链表元素长度大于8，且数组长度大于64时，链表转为红黑树，优化查询于插入的效率），散列值通过hash函数确定key(桶数组的下标)，key冲突（散列冲突）时，存入后续的链表中。
在数据量较小的情况下hash散列表是能够支撑我们的业务场景的，无hash冲突情况下时间复杂度为log(1)，hash冲突时为log(n)。当存储数据达到百万、千万时，散列所需的存储空间越来越大，检索速度也越来越慢，而布隆过滤器在查询于插入的时间与空间复杂度都为log(k)。

2、布隆过滤器原理

2.1 bitmap

布隆过滤器的数据存储是基于bitmap的。bitmap的基本思想就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。
在bitmap的位数组中每一位表示一个数，0表示不存在，1表示存在，如下表示{1,2,4,6}这个数组。

假设需要存储2亿个int整数
在Java中，int占4字节，1字节=8位（1 byte = 8 bit）
每个数字用int存储，那就是2亿个int，占用的空间约为 (200000000*4/1024/1024/1024)≈735M
按位存储，2亿个数就是2亿位，占用空间约为 (200000000/8/1024/1024/1024)≈23.8M

2.2 布隆过滤器的原理

bitmap只能存储整数，其他数据类型就捉襟见肘了。布隆过滤器把一个元素，通过 K 个 Hash 函数将这个元素映射成bitmap中的 K 个点，把它们置为1。检索时，我们只要看看这些点是不是都是 1 就（大约）知道集合中有没有它了：
如果这些点有任何一个 0，则被检索元素一定不在；
如果都是 1，则被检索元素很可能在。
以hello的存储为例，把1，3，5置为1，查询时hash值为1，3，5为1，则认定hello存在
在这里插入图片描述

2.3 缺点

误判率
假设保存两个值，hello和wordhello对应的index为1，3，5word对应的index为2，4，6
而此时来了一个值java，对应的index为1，4，5查询得出结果：exist(java) = true但其实，java这个数据并不存在，这就会产生一定的误判。
删除
如果hash(hello)=1，3，5这时候hash(java)=1，4，6如果删除了hello的值，index = 1,3,5置为0，同时意味着java在判定是否存在时为false

3、布隆过滤器的实现

布隆过滤器使用时需要确定两个变量，容量（位数组的大小，容量越大，hash冲突可能性越小）与误判率（误判率越小hash运算次数越多，效率越低）。要根据实际业务场景预判容量，再设定误判率。
误判率与容量关系推导：https://juejin.cn/post/6888209593378291720

3.1guava布隆过滤器

Google提供的guava包里面也提供了布隆过滤器,
引入pom坐标

<dependency>
	<groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
</dependency>

运用Demo

 @Test
 public void bloomFilterTest() {
   BloomFilter<String> b = BloomFilter.create(Funnels.stringFunnel(Charset.forName("utf-8")), 10000, 0.001);
   b.put("121");
   b.put("122");
   b.put("123");
   Assert.assertEquals(false, b.mightContain("12321"));
 }

3.2 Redis布隆过滤器

redis里的setbit指令,对于布隆过滤器的实现十分便利：

setbit key offset value

key是键，offset是偏移量，value就是1或者0。比如下面的就是将key1 的第5位置为1。
在这里插入图片描述

引入redission插件

<dependency>
  <groupId>org.redisson</groupId>
  <artifactId>redisson</artifactId>
</dependency>

使用demo

@Test
public void redissionBoolFilter() {
  Config config = new Config();
  config.useSingleServer().setAddress("redis://127.0.0.1:6379");
  RedissonClient redisson = Redisson.create(config);

  RBloomFilter<String> bloomFilter = redisson.getBloomFilter("user");
  // 初始化布隆过滤器，预计统计元素数量为10000，期望误差率为0.01
  bloomFilter.tryInit(10000L, 0.01);
  bloomFilter.add("Tom");
  bloomFilter.add("Jack");
  Assert.assertEquals(true, bloomFilter.contains("Tom"));  //true
  Assert.assertEquals(false, bloomFilter.contains("Linda"));  
}

4、布隆过滤器在特征计算平台的应用

特征计算平台在统计ip维度、设备标识维度的数据时，数据量是巨大的，在统计以天为统计维度时，使用布隆过滤器不仅减少服务器压力，也提升服务性能。

4.1 guava布隆过滤器与redis过滤器的对比

guava过滤器

优点
1、基于内存，性能高

缺点
1、基于JVM内存的一种布隆过滤器，重启即失效
2、本地内存无法用在分布式场景
3、不支持大数据量存储

redis过滤器

优点：
1、可扩展性Bloom过滤器：一旦Bloom过滤器达到容量，就会在其上创建一个新的过滤器
2、基于redis，不存在重启即失效或者定时任务维护的成本
3、支持分布式场景，拓展性高

缺点：
1、有网络io延迟，性能较guava布隆过滤器低