概述
搜索引擎使用网络爬虫在爬网页时,有一个重要的策略是对已经爬过的网页,要隔段时间重爬一次,防止网页更新导致索引库中的网页过期。怎么确定这个时间间隔呢?通常会用到泊松分布。
泊松分布
先解释一下泊松分布:假设过去很长一段时间内的跟踪统计数据表明,某医院每个小时会出生3个小孩儿,这个数据就属于泊松分布。因为这个数据满足几个条件:1、这个数据是在很长的一个时间段内来统计得到的;2、每小时出生的小孩儿基本稳定在一个水平;3、每个小时出生的小孩儿数量互不影响;4、随意选取某一个小时来看出生小孩儿数量的话,会发现出生3个的概率很大,出生2个或4个的概率会变小,出生0个或10个的概率极小。用图表示,就是这样的:
回到网页更新爬取这个话题,用R给出应用解决方案:
假设根据过去经验,某网站更新频率为一天3次。
//该网站一天更新0,1,2,3,4,5次的概率分别有多大?
dpois(c(0,1,2,3