布隆过滤器

布隆过滤器是一种空间效率极高的概率型数据结构,常用于判断一个元素是否可能在一个大型数据集中。它利用多个哈希函数将元素映射到位数组,通过设置位来标记元素存在。查询时,所有哈希位置都为1则可能存在,但可能存在误判。该技术在爬虫URL去重、内存限制场景下广泛应用。
摘要由CSDN通过智能技术生成

目录

应用场景

特点介绍

原理简介


应用场景

一个元素是否存在于一个超大规模数据集中,比如爬虫场景下的URL去重

 

特点介绍

  • 一个很长的位数组
  • 一系列散列函数
  • 空间效率和查询效率高
  • 有一定的误判率

 

原理简介

  • 添加元素时,将该元素进行K次hash运算,映射到K个位置,并把这些位置标位1
  • 查询元素时,同样将该元素进行K次hash运算,如果有一个位置为0,代表该元素肯定不存在于集合中;如果都为1,那么判断该元素存在于集合中,但不一定真的存在,这里存在误判的情况

参考资料:https://www.cnblogs.com/cpselvis/p/6265825.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值