布隆过滤器的原理和实现

布隆过滤器 VS hashmap

布隆过滤器(Bloom Hash)是一种巧妙的概率型数据结构(probabilistic datastructure),特点是高效地插入和查询。

和传统的数据结构相比,布隆过滤器占用空间小且高效,但有一定的概率性,结果存在误差。

hashmap的元素超过表的一半需要扩容(hashmap:hash散列+链表),当发生的hash冲突太严重,hashmap退化为链表

在STL中,map(rbtree)unordered_map(hash)

因为map和hashmap都比较占用内存,他们都存储了key,如url则非常占用空间;hash的存储效率只有50%,为了避免高碰撞一般hash表存到一半就会翻倍,很费内存。

布隆过滤器(hash):在哈希基础上扩展

应用场景

  • 判断一个字符串是否存在
  • 记录的数据量很大且要求查询效率高
  • 用在允许误差的场景

原理

布隆过滤器是一个bit向量(数组),长度决定了占了多少内存,但增加key的时候不会耗内存(因为它不存储key).比如用4字节长度的bit向量,则有0~4294967295

当一个元素被加入集合时,通过K个hash函数把这个元素映射成一个bit向量中的K个点,把他们置1,检索时如果对应位都为1就可以判断元素很可能在集合中。因为每一位可能和多个元素相联系,所以布隆过滤器算法中不能够删除元素。

采用多个hash函数做映射得到多个位置索引并置1,为的是解决冲突问题

  • 内部参数
  1. 向量表长度
  2. hash函数的个数
  3. 期望的误差
  4. 最多放多少个元素

 bit向量的长度m元素个数n都会影响查询的误判率p:m增大,n减小,都会降低p

设计布隆过滤器需要根据n、p先

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值