什么是布隆过滤器
本质上是一种数据结构,比较巧妙的概率型数据结果
特点是高效的插入和查询,可以判断某样东西不一定或者可能存在
相比于传统的List,Set,Map等数据结构,它更搞笑,占用空间更少,但缺点是返回的结果是概率性的,不确切的
工作原理:
添加
向布隆管理器添加key会使用f,g,h hash算法对key算出一个整数索引,然后对长度取余
每个hash都会算出不同的位置,把算出来的位置设置为1就完了布隆过滤器的添加过程
查询
查询某个key时,根据hash算法算出整数索引,对长度区余,算出对应的值,
当有一个值不为1,那么该值一定不存在,全部为1时才有可能才存在。
内存中的布隆过滤器大量不存在row请求,然后再去磁盘进行查询,减少IO操作
删除:不支持
如果需要支持删除,那么在存储时如果发生了哈希冲突,那么需要在原来的值的基础上+1,删除时,在对应的hash值上-1
从容器的角度来说:
如果布隆过滤器判断元素在集合中存在,不一定存在
如果布隆过滤器判断不存在,一定不存在
从元素的角度来说:
如果元素实际存在,布隆过滤器一定判断存在
如果元素实际不存在,布隆过滤器可能判断存在