离散分布——泊松分布、指数分布

搜索引擎的网页重爬策略利用泊松分布确定时间间隔。若某网站平均每天更新3次,其更新时间间隔符合指数分布,平均8小时更新一次。根据指数分布特性与命中率,可计算出理想的爬取间隔。
摘要由CSDN通过智能技术生成

概述

搜索引擎使用网络爬虫在爬网页时,有一个重要的策略是对已经爬过的网页,要隔段时间重爬一次,防止网页更新导致索引库中的网页过期。怎么确定这个时间间隔呢?通常会用到泊松分布。

泊松分布

先解释一下泊松分布:假设过去很长一段时间内的跟踪统计数据表明,某医院每个小时会出生3个小孩儿,这个数据就属于泊松分布。因为这个数据满足几个条件:1、这个数据是在很长的一个时间段内来统计得到的;2、每小时出生的小孩儿基本稳定在一个水平;3、每个小时出生的小孩儿数量互不影响;4、随意选取某一个小时来看出生小孩儿数量的话,会发现出生3个的概率很大,出生2个或4个的概率会变小,出生0个或10个的概率极小。用图表示,就是这样的:
这里写图片描述

回到网页更新爬取这个话题,用R给出应用解决方案:
假设根据过去经验,某网站更新频率为一天3次。

//该网站一天更新0,1,2,3,4,5次的概率分别有多大?
dpois(c(0,1,2,3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值