布隆过滤器

最新推荐文章于 2024-10-16 10:13:45 发布

鸿123

最新推荐文章于 2024-10-16 10:13:45 发布

阅读量100

点赞数

本文链接：https://blog.csdn.net/weixin_43278568/article/details/115769740

版权

布隆过滤器位运算哈希函数误判率黑名单URL

关键词由CSDN通过智能技术生成

问题假设

在讲布隆过滤器之前，我们先设想这样的一个问题，目前有100亿个网络黑名单URL，假设一个URL是64字节，设计一种方法，该方法使得用户访问这些网址时，给予警告信息。

注：该方法可以实现加入URL，查询URL，但是没有删除URL的功能

想法一

用HashSet,将所有的这些URL根据哈希函数算出的哈希值得知对应放进HashSet的位置,用户在访问的时候查找哈希表即可。

分析

因为一个URL占有64字节，那么100亿就是6400亿字节，因为10亿字节约等于1G，故需要640G的内存空间。这是十分吓人的。

对应思考

由于所用的内存空间实在是过于巨大，那么有没有其他可以节省空间的做法呢？如果允许一定的失误率的？

想法二

我们观察到，一个4字节的空间就占有32位，一个8字节的空间就占有64位，这是极大的利用空间，如果我们可以基于位运算，就会方便不少。布隆过滤器就是这样，在讲具体的方法之前，我们先回顾一下有关位运算的一些操作。

位运算回顾

    public static void main(String[] args) {
        //a 是 32bit
        int a = 0;
        int[] arr = new int[10];//320bit
        //arr[0] int 为0 ~ 31位位置
        //arr[1] int 为32 ~ 63位位置
        //arr[2] int 为64 ~ 95位位置

        int i = 178;//i表示想取到的178个bit的状态

        int numIndex = 178 / 32;//定位到178位在那一个arr[?]中
        int bitIndex = 178 % 32;//定位到在arr[?]的具体那一个位置上

        //拿到178位的状态
        int s = ((arr[numIndex] >> (bitIndex)) & 1);

        //把178位的状态改成1
        arr[numIndex] = arr[numIndex] | (1 << (bitIndex));

        //把178位的状态改成0
        arr[numIndex] = arr[numIndex] & (~(1 << bitIndex));

        //整体来讲
        i = 178;
        int bit = (arr[i / 32] >> (i % 32)) & 1;
    }