关于bloom filter以及原理,见我之前转的这篇:
http://blog.csdn.net/inte_sleeper/article/details/7824857
下面开始实战篇。google guava包是包含了一个bloom filter的实现的,使用方式比较简单,其实就是一行代码:
BloomFilter<CharSequence> filter = BloomFilter.create(Funnels.stringFunnel(), 10000000, 0.001F);
上面的代码创建了一个以string为key的bloom filter,预期的插入量是1KW,错误率是0.1%。
查询的时候,直接调 filter.mightContain()方法就可以,非常简单。
下面开始说坑吧。guava的BloomFilter,内部的一段实现代码如下:
public static <T> BloomFilter<T> create(Funnel<T> funnel, int expectedInsertions,
double falsePositiveProbability) {
checkNotNull(funnel);
checkArgument(expectedInsertions >= 0, "Expected insertions cannot be negative");
checkArgument(falsePositiveProbability > 0.0 & falsePos

本文介绍了Google Guava库中的Bloom Filter使用方法及其潜在问题。在实战中,虽然仅需一行代码即可实现查询,但当预期插入量过大时,内存占用并未增加,导致哈希函数个数减少,影响准确性。解决方案包括减少预期插入量或拆分Bloom Filter以提高整体容量和准确性。
最低0.47元/天 解锁文章
1529

被折叠的 条评论
为什么被折叠?



