布隆过滤器

题目:不安全网页的黑名单包含有100亿个黑名单网页,每一个网页的URL最多占用64B。现在想要设计一种网络过滤刺痛可以根据网页的URL判断URL是否在黑名单上,请设计该系统。

要求:1.该系统允许有万分之一的判断失误率

            2使用额外的空间不要超过30GB

思路:

以下来自左神的算法书。

如果把全部的URL存储起来空间是不够的。如果以后遇到网页黑名单系统垃圾邮件过滤系统,爬虫的网址判重等题目,又看到系统容忍一定的失误率,但是对空间要求比较严格,那么可能是在考察布隆过滤器的知识。布隆过滤器可以精确代表有一个集合并且可以精确判断一个元素是否在集合中。

在布隆过滤器中有两个比较重要的部分,分别是一个长度为m的bit类型的数组bitMap,数组中的每一个位置都只占用一个bit。

除此之外还需要有k个哈希函数,这些韩熙韩束的输出域s都大于或者等于m并且这些哈希函数足够优秀彼此之间也完全独立。如果

bitMap的大小相对于输入对象的个数N过小的话失误率就会变大。使用布隆过滤器的好处就在于不用顾忌单个样本的大小它丝毫不影响布隆过滤器的大小。

 

 

布隆过滤器也会有误报,对已经发现的误报样本可以通过建立白名单来防止误报。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值