离散分布——泊松分布、指数分布

最新推荐文章于 2024-08-08 19:26:43 发布

a345017062

最新推荐文章于 2024-08-08 19:26:43 发布

阅读量1.4w

点赞数 1

分类专栏：数学之美

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a345017062/article/details/51375611

版权

搜索引擎的网页重爬策略利用泊松分布确定时间间隔。若某网站平均每天更新3次，其更新时间间隔符合指数分布，平均8小时更新一次。根据指数分布特性与命中率，可计算出理想的爬取间隔。

摘要由CSDN通过智能技术生成

概述

搜索引擎使用网络爬虫在爬网页时，有一个重要的策略是对已经爬过的网页，要隔段时间重爬一次，防止网页更新导致索引库中的网页过期。怎么确定这个时间间隔呢？通常会用到泊松分布。

泊松分布

先解释一下泊松分布：假设过去很长一段时间内的跟踪统计数据表明，某医院每个小时会出生3个小孩儿，这个数据就属于泊松分布。因为这个数据满足几个条件：1、这个数据是在很长的一个时间段内来统计得到的；2、每小时出生的小孩儿基本稳定在一个水平；3、每个小时出生的小孩儿数量互不影响；4、随意选取某一个小时来看出生小孩儿数量的话，会发现出生3个的概率很大，出生2个或4个的概率会变小，出生0个或10个的概率极小。用图表示，就是这样的：
这里写图片描述

回到网页更新爬取这个话题，用R给出应用解决方案：
假设根据过去经验，某网站更新频率为一天3次。

//该网站一天更新0，1，2，3，4，5次的概率分别有多大？
dpois(c(0,1,2,3

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。