布隆过滤器 - Bloom Filter

布隆过滤器是一种节省空间的数据结构,用于在大数据量场景下判断元素是否存在,常用于去重、缓存穿透预防等。其通过多个哈希函数将元素映射到位数组,存在误判概率但能极大地节省存储。在实际使用中,需注意元素数量与初始化大小的匹配,避免误判率过高。
摘要由CSDN通过智能技术生成

布隆过滤器 - Bloom Filter

参考链接:
1:JavaGuide - 布隆过滤器
2:亿级数据过滤和布隆过滤器

0.引言

douyin.png

P:我们平时在刷抖音时,开发人员如何保证 不会刷到同样的内容

  • 1:把算法推荐中的内容根据历史记录做一遍筛选?在用户量大,用户查看内容多的场景,性能低
  • 2:历史记录全部计入缓存?资源量大,并且会随着时间逐渐上涨,服务器耗费up
  • 3:布隆过滤器?专门用于解决去重问题,存在一定误判概率但是在去重的同时能节省90%的空间

1.使用场景

  • 1:在数据量很大(5亿以上)的场景下判断某一数据是否存在。对比hashMap节省了很大的存储空间
  • 2:黑名单、邮箱的垃圾邮件过滤。正常邮件被放入垃圾邮箱,就是布隆过滤器的误判导致
  • 3:去重。例如爬虫时,对已经爬取过的内容去重
  • 4:缓存穿透(非法用户会使用一般数据库里没有的key来进行访问导致请求一直打到数据库,导致数据库崩溃)。布隆过滤器删除key困难(会影响其他key),更建议直接使用redis set(设置过期时间)

2.什么是布隆过滤器

(1) 数据结构

布隆过滤器(Bloom Filter)1970年由Bloom的老哥提出

init.png

它由一个二进制数组来记录数据的相关性,数组中只有1或0

二进制数组的优势:申请一个 100w 个元素的位数组只占用 1000000Bit / 8 = 125000 Byte = 125000/1024 kb ≈ 122kb 的空间。

因为数组为固定长度,在数据量越多而空间越少的情况,判断误差率会变大

(2) 原理

add.png

当一个元素加入布隆过滤器时:

  1. 布隆过滤器中的多个哈希函数对元素值进行计算,得到索引值,之后数组长度对该索引值取模算的数组位置
  2. 多个哈希函数有多个计算后的数组位置,置为1,完成add操作

exist.png

当判断一个元素是否存在时:

  1. 多个哈希函数对元素值计算出位置后,如果有一个位置值为0,则肯定不存在
  2. 如果多个位置值都为1,则表示极有可能存在(可能其他元素把这几个位置提前置为1了,导致的误判&#x
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值