实现一个简单的布隆过滤器

21 篇文章 0 订阅
2 篇文章 0 订阅

实现一个简单的布隆过滤器

1 什么是布隆过滤器

​ 布隆过滤器是一个叫Bloom的人提出来的,其数据结构是一个只包含01的数组,即位数组+随机散列函数(hash函数),主要用于判断一个元素在一个亿级容量的容器中是否存在。常用于解决Redis的缓存穿透。其优点是效率高,占用空间少;缺点是容易产生误判(有很小的几率会将不存在的元素判断为存在),并且数据不容易被删除。

2 怎样实现的?

在这里插入图片描述

图片源自:JavaGuide

结构:

  1. 定义一个位数组,默认都为0
  2. 实现若干个哈希函数

原理:

  1. 对一个元素进行添加操作时,分别用这若干个哈希函数对数据进行运算,将位数组中对应索引位置的元素变为1
  2. 判断某一个元素是否存在时,对每一个哈希函数计算出来的哈希值在数组中对应位置值是否为1,如果都为1,则判定为存在。

注意:由于哈希函数会存在哈希碰撞,因此可能某些哈希函数计算出来的值相同,会将不存在的元素判断为存在,只不过这样的概率极小而已(这种情况一般调整哈希函数或对数组进行扩充)。

3 使用场景

  • 判断给定数据是否存在,Redis中防止缓存穿透,邮箱的垃圾邮件过滤、黑名单功能等等。
  • 去重:如爬给定网站的时候对已爬取的url进行去重。

4 设计一个简单的布隆过滤器

public class MyBloomFilter {
    // 位数组的大小
    private final static int DEFAULT_CAPACITY = 2 << 22;

    // 实现不同hash函数的参数数组
    private final static int[] SEEDS = {3, 13, 46, 76, 91, 138};

    // 定义位数组
    private final BitSet bits = new BitSet(DEFAULT_CAPACITY);

    // 存放哈希函数的类数组
    private final SimpleHash[] func = new SimpleHash[SEEDS.length];

    // 对哈希函数进行初始化
    public MyBloomFilter() {
        for (int i = 0; i < SEEDS.length; i++) {
            func[i] = new SimpleHash(DEFAULT_CAPACITY, SEEDS[i]);
        }
    }

    // 添加元素到位数组操作
    public void add(Object value) {
        for (int i = 0; i < SEEDS.length; i++) {
            bits.set(func[i].hash(value), true);
        }
    }

    // 判断是否存在操作
    public boolean contains(Object value) {
        boolean ret = true;
        for (SimpleHash f : func) {
            ret &= bits.get(f.hash(value));
        }
        return ret;
    }

    /*
        静态内部类:用于实现不同的哈希函数
     */
    private static class SimpleHash {
        private final int cap;
        private final int seed;

        public SimpleHash(int cap, int seed) {
            this.cap = cap;
            this.seed = seed;
        }

        /**
         * 计算哈希值
         */
        public int hash(Object key) {
            int h;
            return (key == null) ? 0 : Math.abs(seed * (cap - 1) & ((h = key.hashCode()) ^ (h >>> 16)));
        }
    }

}

测试:

public class Test {
    public static void main(String[] args) {
        MyBloomFilter bloom = new MyBloomFilter();
        String str = "我是张三";
        String str1 = "我是李四";
        // 添加张三
        bloom.add(str);
        // 判断张三李四
        boolean flag = bloom.contains(str);
        boolean flag1 = bloom.contains(str1);
        System.out.println(flag);  // true
        System.out.println(flag1);  // false
    }
}

5 真正的布隆过滤器

  • 谷歌开源的Guava中自带的布隆过滤器

    <dependency>
        <groupId>com.google.guava</groupId>
        <artifactId>guava</artifactId>
        <version>28.0-jre</version>
    </dependency>
    
    
  • Redis中的过滤器

    具体地址:https://hub.docker.com/r/redislabs/rebloom/

参考:JavaGuide

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值