redis实现布隆过滤器

信仰_273993243

已于 2023-11-16 13:47:27 修改

阅读量341

点赞数

文章标签： redis 布隆过滤器

于 2023-11-16 12:55:25 首次发布

本文链接：https://blog.csdn.net/weixin_37862824/article/details/134439292

版权

思路：

用于快速检查一个元素是否属于某个集合中。它可以快速判断一个元素是否在一个大型集合中，且判断速度很快且不占用太
多内存空间。原理是使用一组哈希函数，将元素【映射】成数组中的【索引位置】，就是将元素转成他在索引中的位置，这个位
置可以是多个，对一个数据进行多次Hash，得到多个Hash值，把这个Hash值保存到数据组中，如果来了一个新的数据，也使
用同样的操作，如果所有哈希函数操作对应的位数组值都为1，那么该元素可能在集合中。

布隆过滤器优缺点：
1、时间和空间效率高
2、误判率低
3、支持高并发
缺点：
1、无法删除已添加的数据
2、误判率无法避免
3、无法精确判断元素是否存在

减少误判：
1、使用多个布隆过滤器，这种方法可以显著降低误判率，但是会增加存储空间和查询时间。
2、使用加密哈希函数
3、使用高质量的哈希函数：使用高质量的哈希函数可以减少哈希冲突的概率。常见的高质量哈希函数包括MurmurHash、CityHash等。

备注：

1、Murmurhash: 
是一种非加密型哈希函数，适用于一般的哈希检索操作。高运算性能，低碰撞率。

2、CityHash：
是Google发布的字符串散列算法，和murmurhash一样，属于非加密型hash算法。CityHash算法的开发是受
到了MurmurHash的启发。其主要优点是大部分步骤包含了至少两步【独立的数学运算】。现代 CPU 通常能从这种代码获得
最佳性能。

CityHash 也有其缺点：代码较同类流行算法复杂。 Google 希望为速度而不是为了简单而优化，因此没有照顾较
短输入的特例。Google 号称CityHash64 在速度方面至少能提高 30%(这个，肯定不是和murmurhash比咯)，并有望提
高多达两倍。此外，这些算法的统计特性也很完备。

关于：CityHash和MurmurHash算法的区别：跳转

布隆过滤器的实现原文章跳转

demo

redis实现布隆过滤器，使用的是BitMap，只有0和1两个数字

//设置布隆过滤器的某个位置值为true。
redisTemplate.opsForValue().setBit(redisKey,index,Boolean.TRUE);

//查询某个位置的值
redisTemplate.opsForValue().getBit(redisKey, index);  返回值是boolean类型。



int abs = Math.abs(key.hashCode());
long index = (long) (abs % Math.pow(2, 32));
redisTemplate.opsForValue().getBit(redisKey, index); 当然这只使用了一个Hash函数，我们可以通过多个hash函数得到多个Index。

当然不单单是redis可以实现，Guava也支持。

使用Guava布隆过滤器

/**
* 布隆过滤器
*/
private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), 存入数据的大小, 误判率);

bloomFilter.put(i);//存入数据


bloomFilter.mightContain(i)判断布隆过滤器是否包含这个元素，比如存1进去，当需要判断10是否存在时，可能也会返回true。