BoolmFilter 是通过hash算法来判断是否在某个集合内的快速简化算法.
它存的并不是元素本身,而是通过x个HASH算法把最终特征byte存储到y个byte数组里.
当来查询的时候,直接进行HASH算法再匹配byte特征,如果全部命中,则认为是在该集合里.
但这样意味着,如果本身是集合内的某个元素,肯定会全部命中,判断存在.
如果不是,则会拥有误差.也有可能特征全部命中,判断存在.
而这个误差是我们可以控制的.
下面是创建布隆过滤器的构造,参数1是元素类型,有基本的元素,如果需要自定义则实现Funnel这个接口即可,
参数2是过滤器的容量,参数三是允许误差.内部底层就是根据容量和允许误差计算出的应有HASH算法个数以及byte数组长度.
BloomFilter<CharSequence>bloomFilter=BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), 100000,0.001);