布隆过滤器学习

最新推荐文章于 2024-05-04 17:44:35 发布

天边有朵云

最新推荐文章于 2024-05-04 17:44:35 发布

阅读量97

点赞数

分类专栏：笔记春招

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33500066/article/details/113988703

版权

笔记同时被 2 个专栏收录

46 篇文章 0 订阅

订阅专栏

33 篇文章 0 订阅

订阅专栏

布隆过滤器是一种空间效率极高的概率型数据结构，用于测试一个元素是否可能在一个集合中。它通过多哈希函数映射到二进制位表，实现快速的插入和查询操作。尽管存在误判可能性，但其常量级别的空间和时间复杂度使其在处理大量数据时尤为适用，如网络爬虫去重、缓存穿透等场景。改善误判率通常需要根据预期元素数量和误判率来调整位表长度和哈希函数数量。

摘要由CSDN通过智能技术生成

本文内容

用处、特点、应用场景
原理
优缺点
改善

用处：测试一个元素是否在集合中

特点：

常量级别空间、时间复杂度
能告诉你某个元素 一定不存在 或 可能存在 于集合

应用场景:

网络爬虫去除重复URL，一定未访问过的URL
垃圾邮件地址
缓存穿透，将可能存在的数据放入，过滤掉不存在数据

原理：

多哈希函数的映射，一个很长的二进制位表+多个哈希函数

初始时位表全为0
添加：多个哈希函数计算多个位置，将对应位置上位表置1
查询：多个哈希函数计算多个位置，如果有一个位置为0，则元素肯定不存在，全为1，则可能存在

优点：

常量级别的时间、空间复杂度
不保存元素内容，安全
哈希函数间独立，方便硬件并行执行

缺点：

有一定概率误判
删除困难

改善

基于想达到的误判率p、估计的元素数目n，按照公式计算长度m，哈希函数个数k

学习自

https://cloud.tencent.com/developer/article/1456844
https://zhuanlan.zhihu.com/p/43263751

天边有朵云

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

天边有朵云 CSDN认证博客专家 CSDN认证企业博客

码龄9年

69: 原创

32万+: 周排名

91万+: 总排名

13万+: 访问

: 等级

1163: 积分

11: 粉丝

45: 获赞

42: 评论

142: 收藏

私信

关注

分类专栏

最新评论

word目录中有些有前导符(......)，有些没有
生亦生: 这是真的有帮助，啥也不懂就乱喷
word导航栏字体大小修改
♚『Катюша』: 没有作用，感觉是word的问题
Opencv 两个网络摄像头同步
潮涨: 你好，请问为什么执行后两个相机没效果，还是差大概0.2左右。
word目录中有些有前导符(......)，有些没有
David1730: 建议提升一下语文水平写的什么玩意
下载部分COCO数据集并生成新的json标注文件
extreme99520: File "E:\anaconda3\envs\pytorch_env\lib\urllib\request.py", line 569, in error return self._call_chain(*args) File "E:\anaconda3\envs\pytorch_env\lib\urllib\request.py", line 503, in _call_chain result = func(*args) File "E:\anaconda3\envs\pytorch_env\lib\urllib\request.py", line 649, in http_error_default raise HTTPError(req.full_url, code, msg, hdrs, fp) urllib.error.HTTPError: HTTP Error 410: Gone 您好，这个问题怎么解决，试了好几次只下载12张图片就报错

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。