谈谈布隆过滤器(比哈希表省很多内存,简言之更牛逼）

最新推荐文章于 2024-08-14 00:14:30 发布

故常无-欲以观其妙

最新推荐文章于 2024-08-14 00:14:30 发布

阅读量9.2k

点赞数 2

分类专栏：信息检索处理中的大数据问题与算法文章标签：布隆过滤器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/justdoithai/article/details/51233082

版权

布隆过滤器是一种节省内存的数据结构，常用于判断元素是否存在集合中，尤其适用于大规模数据存储。它通过多个哈希函数将元素映射到位数组，可能出现少量误判但内存效率高。在拼写检查、网络爬虫和邮件过滤等场景中，布隆过滤器能有效地降低内存需求。其工作原理包括初始化位数组为0，然后对每个元素使用多个随机数生成器确定位数组中的1。误判概率与位数组大小和哈希函数数量有关。

摘要由CSDN通过智能技术生成

之前就阅读过数学之美，知道有这么个基础的算法，可是因为不常用到也就没当回事，最近重新看到它觉得很高大上，就想来mark下

设计初衷：
（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的，不知道当时布隆为啥想到设计时究竟是碰到了啥问题，但这确实很有效
**来看下面的问题：
1.检查一个单词是否拼写正确->看它是否在已经字典中
2.网络爬虫->一个网址是否访问过
3.邮件过滤，建立那些发垃圾邮件的地址的黑名单**

你可能会说哈希表不就行了吗，但在2,3的问题中，网页和垃圾邮件地址全球动不动便是几十亿那，哈希的存储效率也就50%左右
一亿Email（一个占16字节）约为1.6GB内存，要是几十亿个地址就几百GB，谁家这么有钱，都去建天河二号
所以啊，能不能少花点内存来干这事：于是布隆过滤器来了，只要12.5%到25%的哈希表空间就能干这事，但是有点小错误，这个小错误概率太小就基本不担心了

工作原理：
一亿Email => 16亿二进制（bit)==2亿字节（哈希就是16亿字节了）

1.先全部位清0，对每一个电子邮件地址X，用8个不同的随机数产生器（F1，F2，..F8)产生8个信息指纹（比如md5),

2.然后用一个统一的随机数产生器G把这8个信息指纹=>8个自然数g1,g2,g3..,g8,这些位置上的位置为1

1亿个地址放入建好这个布隆过滤器

然后新来一个，同样处理，对应8个二进制位 t1,t2,…,t8
如果全为1，好的=>判定位垃圾邮件

你会想了，这样靠谱不，万一把非垃圾邮件误判了咋办

我们来看看误判的概率：
先来算任何一个位被置为1的概率p，这样你可以简单的就知道
新来一个，有8个位，如果被误判了，此时这8个位全为1，其概率为

p 8

$p^8$
我们来推到下一般的情况，假设有m个位，n个元素，有k个哈希函数，
针对单个元素插入来说：

任 一 个 位 被 置 为 1 的 概 率

最低0.47元/天解锁文章

故常无-欲以观其妙

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。