我与Bloom filter

1 海量网页判断用Bloom Filter

面试的时候,一个面试官问我说:“有一个网络爬虫,爬虫程序会不停地爬取页面上的每一个网页,并把爬取后的网页给存储起来,那么爬虫如何判定现在在爬的网页有没有被爬过。”

我当时卡住了半天回答不上来。

面试官给我说用Bloom Filter。

Bloom Filter把爬取过的网页映射到Bloom Filter内,如果再爬取到该网页,Bloom Filter会检验当前网页是否在Bloom Filter内,如果在的话,就说明当前网页已经被爬过了。


2 毕业论文里面有写到我对Bloom Filter这个算法的应用。

a Bloom Filter的错误率估计

b 最优哈希函数个数

c 位数组的大小


导师说这些东西都是别人的东西,你要体现自己的工作量,那么如何体现自己的工作量呢?

a 结合我要判断的东西,我实地考量要分发的数据的数量?


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值