布隆过滤器


哈希函数

哈希函数(Hash)是将一个大的数据集映射到一个小的数据集上,这些小的数据集叫做哈希值或散列值。

一个应用是Hash table(散列表,也叫哈希表),是根据哈希值 (Key value) 而直接进行访问的数据结构。也就是说,它通过把哈希值映射到表中一个位置来访问记录,以加快查找的速度。下面是一个典型的 hash 函数 / 表示意图:

哈希函数有两个特点:

  1. 如果根据同一个散列函数得到的两个散列值不相同,那么这两个散列值的原始输入也是不相同的。
  2. 散列函数的输入和输出不是一一对应的关系,如果两个散列值相同,两个输入值很可能是相同,但也有可能不同,这种情况称为“散列碰撞”或“散列冲突”。

哈希函数的缺点是空间效率不高。

 

布隆过滤器

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。

如果想判断一个元素是否在一个集合中,一般是将集合中的所有元素保存起来,然后通过比较确定,比如链表、树、哈希表等。但是随着集合中的元素的增加,我们需要的存储空间也越来越大,同时检索的速度也越来越慢,上述三种数据结构的检索时间复杂度分别为O(n),O(logn),O(n/k)。

布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。

一般情况下不能从布隆过滤器中删除元素. 我们很容易想到把位数组变成整数数组,每插入一个元素相应的计数器加 1, 这样删除元素时将计数器减掉就可以了。然而要保证安全地删除元素并非如此简单。首先我们必须保证删除的元素的确在布隆过滤器里面. 这一点单凭这个过滤器是无法保证的。另外计数器回绕也会造成问题。

代码实现:

public class BloomFilter {

    /* BitSet初始分配2^24个bit */
    private static final int DEFAULT_SIZE = 1 << 25;

    /* 不同哈希函数的种子,一般应取质数 */
    private static final int[] seeds = {5, 7, 11, 13, 31, 37, 61};
    private SimpleHash[] funcs = new SimpleHash[seeds.length];

    private BitSet bits = new BitSet(DEFAULT_SIZE);

    public static class SimpleHash {
        private int cap;
        private int seed;

        public SimpleHash(int cap, int seed) {
            this.cap = cap;
            this.seed = seed;
        }

        public int hash(String value) {
            int result = 0;
            int len = value.length();
            for (int i = 0; i < len; ++i)
                result = seed * result + value.charAt(i);

            return (cap - 1) & result;
        }
    }

    public BloomFilter() {
        for (int i = 0; i < seeds.length; ++i)
            funcs[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
    }

    /**
     * 将字符串标记到bit中
     *
     * @param value
     */
    public void add(String value) {
        for (SimpleHash func : funcs)
            bits.set(func.hash(value), true);
    }

    public void putIfAbsent(String value) {
        if (contains(value))
            add(value);
    }

    public boolean contains(String value) {
        if (value == null)
            return false;

        boolean ret = true;
        for (SimpleHash func : funcs)
            ret = ret && bits.get(func.hash(value));

        return ret;
    }
}
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值