Bloom Filter

最新推荐文章于 2024-04-08 15:47:10 发布

Hazel_once

最新推荐文章于 2024-04-08 15:47:10 发布

阅读量239

点赞数

分类专栏：非关系数据库读书笔记文章标签：布隆过滤器哈希函数误判率存储效率数据检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rapunzel_0616/article/details/120683508

版权

非关系数据库读书笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

布隆过滤器 ——多哈希函数映射的快速查找算法

背景
原理
优缺点

背景

我们可以考虑一些应用场景：

在网络爬虫里，一个网址是否被访问过
yahoo, gmail等邮箱的垃圾邮件过滤功能
文档存储检查系统检测先前存储的数据

以上问题都涉及到：在数据集中查找、检索某一元素。

通常遇到元素查找问题，我们使用链表、树、散列表（又叫哈希表，Hash table）等等数据结构来实现。但是随着集合中元素的增加，数据量达到500万甚至1亿的时候，就会出现存储空间与检索速度上的问题。这个时候，布隆过滤器（Bloom Filter）就应运而生。

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。布隆过滤器可以用于检索一个元素是否在一个集合中。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

原理

创建一个m位BitSet(位数组)，先将所有位初始化为0，然后选择k个不同的哈希/散列函数；
添加元素：当一个元素加入集合，通过k个哈希/散列函数将该元素映射成一个位数组中的ｋ个点，并把它们置为1； 3. 查询元素：检索时，我们通过看对被检元素映射后得到的这些点是不是都是1可以判断集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。

在这里插入图片描述

Bloom Filter存在一定的误判率：以上图为例，假设集合里面有3个元素{x, y, z}，哈希函数的个数为3。首先将位数组进行初始化，将里面每个位都设置位0。对于集合里面的每一个元素，将元素依次通过3个哈希函数进行映射，每次映射都会产生一个哈希值，这个值对应位数组上面的一个点，然后将位数组对应的位置标记为1。
假设某个元素通过映射对应下标为4，5，6这3个点。虽然这3个点都为1，但是很明显这3个点是不同元素经过哈希得到的位置，因此这种情况说明元素虽然不在集合中，也可能对应的都是1，因此在查询检索时会产生误判。

优缺点

优点是空间效率和查询时间都远远超过一般的算法（添加和查询时间都是常数O(k)），缺点是有一定的误判率和删除困难（必须保证删除的元素的确在布隆过滤器里面）。

参考与拓展：
[1].https://zhuanlan.zhihu.com/p/85083632
[2].https://www.jianshu.com/p/88c6ac4b38c8
[3].Wikipedia. Bloom filter
[4].哈希函数个数k、位数组大小m、加入的字符串数量n的关系

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bloom Filter

Bloom Filter ——欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。