概念
filter和cache互补
可以看出产生冲突,在02这个位置变成一个数组或链表,变成链表就叫拉链法解决hash冲突。
这里误识别率是当他判定一个元素在这个集合中,他有一定错误概率,判断不在是100%正确。
原理
如下图x,y,z映射到不同二进制位,x3条蓝色的,y也标为1。
新来一个数w也映射到3个二进制位,发现其中只要有一个二进制位不为1,这个w就不在。w只是查询,查询的0还是保持为0
第二个例子, A插入bloom过滤器,A,E先插入后表示为1。A查询,还是A的位置判断存在,c判断有一位不存在,肯定不存在。B映射也是两位1。但其实AE放在里面。B并不存在。这样B还需要去数据库查询一次。
过滤器只是减少去数据库查询数量。
案例
比特币(Redis(缓存)vsbloomfilter)
前者表示把元素暂存在内存,可以直接从内存 返回提高速度。后者判断这个元素不在就不用在查了,在的话继续查,也可以起到加速作用
下图是比特币网络。
full node client 节点所有交易记录全存在里面。spv(simple payment vertification)节点表示钱包账户也好用来判断是否有交易记录,方法就是用bloom过滤器。如果存在再去相应区块查交易记录。
分布式系统(Map-Reduce)
在分布式系统中,把大的任务切分时候也有。