博客增量抓取系统的难点之RSS增量抓取策略

本文探讨了博客增量抓取系统的挑战,尤其是RSS抓取的效率问题。通过对博客更新时间间隔的泊松分布分析,提出了一种根据更新频率估算下次抓取时间的策略,旨在提高效率,减少资源浪费,同时减轻服务器压力。
摘要由CSDN通过智能技术生成
博客增量抓取系统的难点之RSS增量抓取策略

公司内部开发了一个博客抓取系统,可是当feed数量增多时,系统面临着一个问题:有的博客很少更新,但系统却很频繁地去抓;有的博客作者手笔很勤,一天更新10多篇,但系统一个月才去抓一次。feed的有效更新效率的低下直接导致带宽和硬件的浪费。如果能够利用技术手段,采用一个智能的抓取策略,那么最直接的效果是节省了公司的资源,同时也减轻了对BSP(博客服务托管商)服务器的压力,长远来讲,也是为环保做点贡献啊!

本文对网络上的一些资料做了些整理,分析前人做出的成绩,并综合出一个简略的实现方法。

博客作者更新文章的时间是毫无规律的,但利用数学的方法可以将此模型归纳为泊松分布。

泊松分布可以作为大量实验中稀有事件出现的频数clip_image002的概率分布情况的一个数学模型。这些随机变数大致上都有如下的特点:他们都取正整数为值,并且与时间间隔长度有关。当时间间隔极短,取值为数2以上是几乎不可能的。另外,它们取值的概率,只与时间间隔的长度有关,而与从哪个时刻开始算起没有什么关系。并且在不相重叠的时间间隔内,彼此没有什么影响。在满足上述相应的数学条件下,这种与时间有关的随机变量确实是服从泊松分布的。

针对博客更新的时间间隔较短的以天为单位,为了构造“大量实验中的稀有事件”,就把时间的单位定为:分钟或小时。考察博客的更新这一事件,发现其满足以下四个条件:

1.平稳性。博客在clip_image004上,更新次数是clip_image006的概率clip_image008只与时间区间的长度

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值