布隆过滤器(Bloom Filter)
1.优缺点
优点:插入,查询速度快,更高效,占用空间更小
缺点:返回的结果是概率性的,并不是一定确认的
2.实现原理
首先:了解一下布隆过滤器结构
- 布隆过滤器是一个bit变量或者说bit数组
- 我们映射一个值到bloom filter中,这个过程,我们需要使用多个不同的哈希函数生成多个hash值,并对每个生成的哈希值指向的 bit 位置 1
如何选择哈希函数个数和布隆过滤器长度
很显然,过小的布隆过滤器很快所有的 bit 位均为 1,那么查询任何值都会返回“可能存在”,
起不到过滤的目的了。布隆过滤器的长度会直接影响误报率,布隆过滤器越长其误报率越小。
另外,哈希函数的个数也需要权衡,个数越多则布隆过滤器 bit 位置位 1 的速度越快,且布隆过滤器的效率越低;
但是如果太少的话,那我们的误报率会变高。
获取哈希函数个数,布隆过滤器长度
k 为哈希函数个数,m 为布隆过滤器长度,n 为插入的元素个数,p 为误报率。
作者:YoungChen__
链接:https://www.jianshu.com/p/2104d11ee0a2
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。