布隆过滤器初探

1、什么是布隆过滤器

布隆过滤器是一个很长的二进制向量和一系列随机hash函数。布隆过滤器可以用于检索一个元素是否在一个集合中。
常见的hash函数的应用hashMap、hashSet等
回顾一下hashMap的结构
在这里插入图片描述在这里插入图片描述

hashMap由数组+链表+红黑树(java1.8后,链表元素长度大于8,且数组长度大于64时,链表转为红黑树,优化查询于插入的效率),散列值通过hash函数确定key(桶数组的下标),key冲突(散列冲突)时,存入后续的链表中。
在数据量较小的情况下hash散列表是能够支撑我们的业务场景的,无hash冲突情况下时间复杂度为log(1),hash冲突时为log(n)。当存储数据达到百万、千万时,散列所需的存储空间越来越大,检索速度也越来越慢,而布隆过滤器在查询于插入的时间与空间复杂度都为log(k)。

2、布隆过滤器原理

2.1 bitmap

布隆过滤器的数据存储是基于bitmap的。bitmap的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。
在bitmap的位数组中每一位表示一个数,0表示不存在,1表示存在,如下表示{1,2,4,6}这个数组。

假设需要存储2亿个int整数
在Java中,int占4字节,1字节=8位(1 byte = 8 bit)
每个数字用int存储,那就是2亿个int,占用的空间约为 (200000000*4/1024/1024/1024)≈735M
按位存储,2亿个数就是2亿位,占用空间约为 (200000000/8/1024/1024/1024)≈23.8M

2.2 布隆过滤器的原理

bitmap只能存储整数,其他数据类型就捉襟见肘了。布隆过滤器把一个元素,通过 K 个 Hash 函数将这个元素映射成bitmap中的 K 个点,把它们置为1。检索时,我们只要看看这些点是不是都是 1 就(大约)知道集合中有没有它了:
如果这些点有任何一个 0,则被检索元素一定不在;
如果都是 1,则被检索元素很可能在。
以hello的存储为例,把1,3,5置为1,查询时hash值为1,3,5为1,则认定hello存在
在这里插入图片描述

2.3 缺点

误判率
假设保存两个值,hello和wordhello对应的index为1,3,5word对应的index为2,4,6
而此时来了一个值java,对应的index为1,4,5查询得出结果:exist(java) = true但其实,java这个数据并不存在,这就会产生一定的误判。
删除
如果hash(hello)=1,3,5这时候hash(java)=1,4,6如果删除了hello的值,index = 1,3,5置为0,同时意味着java在判定是否存在时为false

3、布隆过滤器的实现

布隆过滤器使用时需要确定两个变量,容量(位数组的大小,容量越大,hash冲突可能性越小)与误判率(误判率越小hash运算次数越多,效率越低)。要根据实际业务场景预判容量,再设定误判率。
误判率与容量关系推导:https://juejin.cn/post/6888209593378291720

3.1guava布隆过滤器

Google提供的guava包里面也提供了布隆过滤器,
引入pom坐标

<dependency>
	<groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
</dependency>

运用Demo

 @Test
 public void bloomFilterTest() {
   BloomFilter<String> b = BloomFilter.create(Funnels.stringFunnel(Charset.forName("utf-8")), 10000, 0.001);
   b.put("121");
   b.put("122");
   b.put("123");
   Assert.assertEquals(false, b.mightContain("12321"));
 }

3.2 Redis布隆过滤器

redis里的setbit指令,对于布隆过滤器的实现十分便利:

setbit key offset value

key是键,offset是偏移量,value就是1或者0。比如下面的就是将key1 的第5位置为1。
在这里插入图片描述

引入redission插件

<dependency>
  <groupId>org.redisson</groupId>
  <artifactId>redisson</artifactId>
</dependency>

使用demo

@Test
public void redissionBoolFilter() {
  Config config = new Config();
  config.useSingleServer().setAddress("redis://127.0.0.1:6379");
  RedissonClient redisson = Redisson.create(config);

  RBloomFilter<String> bloomFilter = redisson.getBloomFilter("user");
  // 初始化布隆过滤器,预计统计元素数量为10000,期望误差率为0.01
  bloomFilter.tryInit(10000L, 0.01);
  bloomFilter.add("Tom");
  bloomFilter.add("Jack");
  Assert.assertEquals(true, bloomFilter.contains("Tom"));  //true
  Assert.assertEquals(false, bloomFilter.contains("Linda"));  
}

4、布隆过滤器在特征计算平台的应用

特征计算平台在统计ip维度、设备标识维度的数据时,数据量是巨大的,在统计以天为统计维度时,使用布隆过滤器不仅减少服务器压力,也提升服务性能。

4.1 guava布隆过滤器与redis过滤器的对比

guava过滤器

优点
1、基于内存,性能高

缺点
1、基于JVM内存的一种布隆过滤器,重启即失效
2、本地内存无法用在分布式场景
3、不支持大数据量存储

redis过滤器

优点:
1、可扩展性Bloom过滤器:一旦Bloom过滤器达到容量,就会在其上创建一个新的过滤器
2、基于redis,不存在重启即失效或者定时任务维护的成本
3、支持分布式场景,拓展性高

缺点:
1、有网络io延迟,性能较guava布隆过滤器低
  • 28
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值