布隆过滤器 学习

布隆过滤器是一种空间效率极高的概率型数据结构,用于测试一个元素是否可能在一个集合中。它通过多哈希函数映射到二进制位表,实现快速的插入和查询操作。尽管存在误判可能性,但其常量级别的空间和时间复杂度使其在处理大量数据时尤为适用,如网络爬虫去重、缓存穿透等场景。改善误判率通常需要根据预期元素数量和误判率来调整位表长度和哈希函数数量。
摘要由CSDN通过智能技术生成

本文内容

  1. 用处、特点、应用场景
  2. 原理
  3. 优缺点
  4. 改善

用处:测试一个元素是否在集合中

特点:

  • 常量级别空间、时间复杂度
  • 能告诉你某个元素 一定不存在 可能存在 于集合

应用场景:

  • 网络爬虫去除重复URL,一定未访问过的URL
  • 垃圾邮件地址
  • 缓存穿透,将可能存在的数据放入,过滤掉不存在数据

原理:

多哈希函数的映射,一个很长的二进制位表+多个哈希函数

  • 初始时位表全为0
  • 添加:多个哈希函数计算多个位置,将对应位置上位表置1
  • 查询:多个哈希函数计算多个位置,如果有一个位置为0,则元素肯定不存在,全为1,则可能存在

优点:

  • 常量级别的时间、空间复杂度
  • 不保存元素内容,安全
  • 哈希函数间独立,方便硬件并行执行

缺点:

  • 有一定概率误判
  • 删除困难

改善

基于想达到的误判率p、估计的元素数目n,按照公式计算长度m,哈希函数个数k

 

 

学习自

https://cloud.tencent.com/developer/article/1456844
https://zhuanlan.zhihu.com/p/43263751

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值