参考:
- When to use Bloom filter and when to use BitMap when we deal with very huge datas?
- 使用布隆过滤器有什么好处?
- Why Bloom filters work the way they do
- 计算bf大小的在线工具Bloom Filter Calculator
- https://github.com/FastFilter/fastfilter_cpp
- 布谷鸟过滤器(Cuckoo Filter)
何时使用布隆过滤器:如果您有一个集合(唯一条目列表)和一个哈希函数,则可以创建一个布隆过滤器。它允许“条目 x 是否可能在集合中?”类型的查询。如果条目在集合中,查询将肯定返回 true。对于不在集合中的条目,它可能会返回 true,但概率较低,通常为 1% 或更低(取决于布隆过滤器的大小)。您可以根据需要将布隆过滤器做得尽可能小,但对于大约 1% 的误报率,您需要每个条目大约 10 位。有使用更少空间的替代算法/数据结构,例如参见https://github.com/FastFilter。顺便说一下,布隆过滤器内部使用位数组。
何时使用位数组(也称为位集):如果条目是
0..n
之间的数字
,则可以按如下方式使用位数组:为每个条目设置位 x。这将需要 n 位(无论有多少条目)。因此,如果您的条目可以是大数字,那么就会出现一个问题:它将使用大量内存。但是,您可以创建一个稀疏位数组(也称为压缩位数组),例如使用https://roaringbitmap.org/。与布隆过滤器不同,您不会出现误报,但大小使用在很大程度上取决于您的数据(取决于您拥有的数字),与布隆过滤器相比,这种依赖性要大得多。