【位运算】位运算的基本内容与布隆过滤器

本文介绍了位运算的应用,特别是在布隆过滤器中的使用。布隆过滤器是一种用于大数据和高空间效率的过滤系统,允许一定程度的失误率。文章详细讲解了布隆过滤器的性质、优势、实现原理以及如何计算失误率。通过对位运算和哈希函数的理解,可以设计出满足需求的过滤系统。
摘要由CSDN通过智能技术生成

目录

 

知识点

位运算的应用

布隆过滤器

1、引入布隆过滤器

2、布隆过滤器的性质

3、布隆过滤器的优势

4、布隆过滤器的实现

5、失误分析:宁可错杀三千,绝不放过一个

6、真实失误率计算

7、总结


知识点

算数运算常用操作符:

位运算常用操作符:&(按位与)、 | (按位或)、^(按位异或)、~(取反)、<<(左移,右侧补0)、 >>(右移,左侧补符号位)、 >>>(右移,左侧补0)

位运算的大部分面试题靠平时积累,新题在面试场上较难想出思路,见过就可能会,没见过就不会了

位运算的应用

布隆过滤器

1、引入布隆过滤器

举例

不安全网页的黑名单包含100亿个黑名单网页,每个网页的URL最多占用64字节。现在想要实现一种网页过滤系统,可以根据网页的URL判断该网页是否在黑名单上,请设计该系统。要求该系统允许有万分之一以下的判断失误率,并且使用的额外空间不要超过30G。

分析:这道题涉及到大数据和位运算的应用。

如果将黑名单中的每个网页都存入哈希表或数据库已备查询,但是每个url最多64个字节,数量是100亿,需要的存储空间为6400亿个byte,1GB = 1024MB = 1024*1024KB = 1024*1024*1024B = 1073741824Byte,近10亿个字节,就需要640GB的空间,不满足要求。

对于网页黑名单系统、垃圾邮件过滤系统、爬虫的网址判断重复系统,该系统可以容忍一定程度的失误率,对空间要求较高,那么这样的系统可以用到

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值