简单的布隆过滤器

lOADIN!

已于 2022-08-16 16:19:02 修改

阅读量280

点赞数

文章标签：哈希算法算法

于 2022-08-16 16:06:30 首次发布

本文链接：https://blog.csdn.net/qq_51114151/article/details/126367855

版权

本文介绍了布隆过滤器的基础知识，包括其作为数据安全防护的使用，以及误差特性。布隆过滤器能有效判断数据是否存在，即使存在误报但绝不会漏报。常见应用场景包括Redis缓存穿透防护、邮箱垃圾邮件过滤等。文章还提供了一个简单的Java实现示例，展示了如何使用布隆过滤器存储和检查数据。

摘要由CSDN通过智能技术生成

一、首先介绍一下布隆过滤器

假如数据都进入数据库是很不安全的，我们把全量数据放入布隆过滤器，假如有黑客的话，

黑客来的时候，要在布隆过滤器里面校验一下，我们通常是吧全量数据的特征存入到布隆过滤器里面；其实布隆过滤器里面主要运用的是hash函数，一个hash值是一个数字，假如我们用int[] 来存储，经过计算我们只能存16G的不规则数据，我们应该用bit数，因为它要么0 要么‘，

二、布隆过滤器误差

如果布隆过滤器告诉你存在，那么这个数据不一定存在

但是布隆过滤器告诉你不存在，那么这个数据一定是不存在的

三、布隆过滤器常用场景

判断给定数据是否存在，Redis中防止缓存穿透，邮箱的垃圾邮件过滤、黑名单功能等等。
去重：如爬给定网站的时候对已爬取的url进行去重。

四、布隆过滤器原理

布隆过滤器的原理是，当一个元素被加入集合时，通过 K 个散列函数将这个元素映射成一个位数组中的 K 个点（offset），把它们置为 1。检索时，我们只要看看这些点是不是都是 1 就（大约）知道集合中有没有它了：如果这些点有任何一个 0，则被检元素一定不在；如果都是 1，则被检元素很可能在。这就是布隆过滤器的基本思想。

五、实现的代码

public class MyBloomFilter {
    //后面hash函数会用到，用来生成不同的hash值，可以随便给，但别给奇数
    private final int[] ints = {6, 8, 16, 38, 58, 68};
    private Integer currentBeanCount = 0;
    //你的布隆过滤器容量
    private int DEFAULT_SIZE = Integer.MAX_VALUE;
    //bit数组，用来存放结果
    private final BitSet bitSet = new BitSet(DEFAULT_SIZE);

    public MyBloomFilter() {
    }

    public MyBloomFilter(int size) {
        if (size <= (2 << 8)) throw new RuntimeException("size is too small");
        DEFAULT_SIZE = size;
    }
	
	//获取当前过滤器的对象数量
    public Integer getCurrentBeanCount() {
        return currentBeanCount;
    }

    //计算出key的hash值，并将对应下标置为true
    public void push(Object key) {
        Arrays.stream(ints).forEach(i -> bitSet.set(hash(key, i)));
        currentBeanCount++;
    }

    //判断key是否存在，true不一定说明key存在，但是false一定说明不存在
    public boolean contain(Object key) {
        boolean result = true;
        for (int i : ints) {
            result = result && bitSet.get(hash(key, i));
        }
        return result;
    }

    //hash算法，借鉴了hashmap的算法
    private int hash(Object key, int i) {
        int h;
        int index = key == null ? 0 : (DEFAULT_SIZE - 1 - i) & ((h = key.hashCode()) ^ (h >>> 16));
        return index > 0 ? index : -index;
    }
}