guava BloomFilter 的作用

最新推荐文章于 2025-03-21 18:49:59 发布

vap8023

最新推荐文章于 2025-03-21 18:49:59 发布

阅读量348

点赞数

分类专栏： Java 文章标签： guava

本文链接：https://blog.csdn.net/Len_lele/article/details/130616600

版权

Java 专栏收录该内容

11 篇文章

订阅专栏

BloomFilter 是一种空间效率极高的随机数据结构，它利用位数组和哈希函数来实现快速判断一个元素是否在集合中。Guava
BloomFilter 是 Google Guava
提供的一种布隆过滤器实现，它可以用于快速判断一个元素是否存在于某个集合中。下面我们将详细介绍 Guava BloomFilter
的作用以及源码分析。

使用场景

可以用于以下场景：

缓存穿透：当查询一个不存在于缓存中的数据时，如果没有采取任何措施，就会直接查询数据库，这样会导致大量无效的查询请求发送到数据库上，增加了数据库的压力。使用
BloomFilter 可以在缓存层面进行初步过滤，从而减少对数据库的访问次数。
防止爬虫：爬虫通常会通过不断地发起请求扫描网页上的数据信息。使用 BloomFilter 可以对访问的 IP 地址或者 URL
进行快速的去重，从而有效地阻止爬虫的攻击。
海量数据查找：在海量数据中，查找一个元素的时间复杂度通常是 O(n) 的，比较耗时。而使用 BloomFilter
可以将查找的时间复杂度降低为 O(1)，从而提高查找效率。
分布式系统中的去重：在分布式系统中，由于数据的分散和传输等原因，很容易出现重复数据。使用 BloomFilter
可以在本地节点上先进行去重，从而减少节点之间数据的传输量。

总之，使用 BloomFilter 可以在很大程度上提高系统的效率和性能，并且可以广泛应用于各种需要快速判断元素是否存在的场景。

BloomFilter 的原理

BloomFilter 采用的是一种基于哈希表实现的算法，核心思想是通过多个哈希函数对要添加的元素进行多次映射，将其映射到不同的位置上，并将这些位置置为 1。当查询某个元素时，只需要对该元素进行相同的哈希映射，判断得到的位置是不是都为 1 就可以了。如果所有的位置都为 1，则说明该元素可能在集合中，否则该元素肯定不在集合中。

但是 BloomFilter 存在一定的误判率，也就是说，当判断某个元素不存在时，有可能会误判成存在。这是因为在哈希映射的过程中，不可避免地会出现多个元素映射到同一个位置的情况，从而导致误判的发生。因此，在实际使用过程中，需要根据实际需求来选择合适的误判率，以及合适的哈希函数个数和位数组大小等参数。

Guava BloomFilter 的实现

Guava BloomFilter 是基于 BloomFilter 实现的一种数据结构。它采用了以下几个关键的技术：

MurmurHash：MurmurHash 是一种非加密型哈希函数，广泛应用于哈希表、BloomFilter 等领域。它具有哈希速度快、分布均匀等特点，因此成为了 BloomFilter 中常用的哈希函数之一。

BitArray：BitArray 是 Guava 中专门设计的一种位数组实现，用于在内存中存储 BloomFilter 中每个元素的哈希映射结果。它采用 long 数组来存储位信息，每个 long 类型的变量可以存储 64 个位信息。使用 long 类型的变量可以大幅度降低内存占用。

mightContain

Guava BloomFilter 提供了一个 mightContain 方法，用于判断某个元素是否可能存在于 BloomFilter 中。该方法实现的核心思想是对待查询的元素进行多次哈希计算，并检查计算得到的位置上是否都为 1。如果所有位置都为 1，则认为该元素可能在 BloomFilter 中；否则，认为该元素肯定不在 BloomFilter 中。

下面是 Guava BloomFilter 中 mightContain 方法的源码实现：

@Override
public boolean mightContain(T object) {
    long bitSize = bits.bitSize();
    long hash64 = Hashing.murmur3_128().hashObject(object, funnel).asLong();

    int hash1 = (int) hash64;
    int hash2 = (int) (hash64 >>> 32);

    for (int i = 1; i <= numHashFunctions; ++i) {
        int nextHash = hash1 + i * hash2;
        if (nextHash < 0) {
            nextHash = ~nextHash;
        }
        if (!bits.get(nextHash % bitSize)) {
            return false;
        }
    }
    return true;
}