布隆过滤器

云养猫v2

于 2020-03-17 13:06:19 发布

阅读量145

点赞数

分类专栏： redis

原文链接：https://juejin.im/post/5bc7446e5188255c791b3360

版权

redis 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

public class BloomFilter {

    private static final int DEFAULT_SIZE = 2 << 24;   //布隆过滤器的比特长度

    private static final int[] seeds = {3, 5, 7, 11, 13, 31, 37, 61};   //选取质数

    private static BitSet bits = new BitSet(DEFAULT_SIZE);

    private static SimpleHash[] func = new SimpleHash[seeds.length];

    public static void addValue(String value) {

        for (SimpleHash f : func) {
            bits.set(f.hash(value), true);
        }
    }

    public static void add(String value) {
        if (value != null) {
            addValue(value);
        }
    }

    public static boolean contains(String value) {
        if (value == null) {
            return false;
        }

        boolean ret = true;

        for (SimpleHash f : func) {
            ret = ret && bits.get(f.hash(value));
        }

        return  ret;
    }

    public static void main(String[] args) {
        String value = "xcfdafafefbferdff@erfdgrtil.com";

        for (int i = 0; i < seeds.length; i++) {
            func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }

        add(value);
        System.out.println(contains(value));
    }


    private static class SimpleHash {

        private int cap;
        private int seed;

        public SimpleHash(int cap, int seed) {
            this.cap = cap;
            this.seed = seed;
        }

        public int hash(String value) {
            int result = 0;
            int len = value.length();
            for (int i = 0; i < len; i++) {
                result = seed * result + value.charAt(i);
            }

            return (cap - 1) & result;
        }
    }
}

布隆过滤器是一个神奇的数据结构，可以用来判断一个元素是否在一个集合中。很常用的一个功能是用来去重。在爬虫中常见的一个需求：目标网站 URL 千千万，怎么判断某个 URL 爬虫是否宠幸过？简单点可以爬虫每采集过一个 URL，就把这个 URL 存入数据库中，每次一个新的 URL 过来就到数据库查询下是否访问过。

布隆过滤器本质是一个位数组，位数组就是数组的每个元素都只占用 1 bit 。每个元素只能是 0 或者 1。这样申请一个 10000 个元素的位数组只占用 10000 / 8 = 1250 B 的空间。布隆过滤器除了一个位数组，还有 K 个哈希函数。

当一个元素加入布隆过滤器中的时候，会进行如下操作：

使用 K 个哈希函数对元素值进行 K 次计算，得到 K 个哈希值。
根据得到的哈希值，在位数组中把对应下标的值置为 1。

举个🌰，假设布隆过滤器有 3 个哈希函数：f1, f2, f3 和一个位数组 arr。现在要把 https://jaychen.cc 插入布隆过滤器中：

对值进行三次哈希计算，得到三个值 n1, n2, n3。
把位数组中三个元素 arr[n1], arr[n2], arr[3] 置为 1。

当要判断一个值是否在布隆过滤器中，对元素再次进行哈希计算，得到值之后判断位数组中的每个元素是否都为 1，如果值都为 1，那么说明这个值在布隆过滤器中，如果存在一个值不为 1，说明该元素不在布隆过滤器中。
在这里插入图片描述

当插入的元素原来越多，位数组中被置为 1 的位置就越多，当一个不在布隆过滤器中的元素，经过哈希计算之后，得到的值在位数组中查询，有可能这些位置也都被置为 1。这样一个不存在布隆过滤器中的也有可能被误判成在布隆过滤器中。但是如果布隆过滤器判断说一个元素不在布隆过滤器中，那么这个值就一定不在布隆过滤器中。简单来说：

1. 布隆过滤器说某个元素在，可能会被误判。
2. 布隆过滤器说某个元素不在，那么一定不在。

这个布隆过滤器的缺陷放到上面爬虫的需求中，可能存在某些没有访问过的 URL 可能会被误判为访问过，但是如果是访问过的 URL 一定不会被误判为没访问过。

云养猫v2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器

public class BloomFilter { private static final int DEFAULT_SIZE = 2 << 24; //布隆过滤器的比特长度 private static final int[] seeds = {3, 5, 7, 11, 13, 31, 37, 61}; //选取质数 private stati...
复制链接

扫一扫