网页爬虫(WebCrawler)更新策略

         互联网是实时变化的,具有很强的动态性。网页更行策略主要用来决定何时更新之前已经下载的页面。常见的更新策略有以下三种: 

1、历史参考策略

        顾明思议,历史参考策略是指根据页面以往的历史更新数据,预测该页面未来何时会发生变化。。一般来说,是通过泊松过程进行建模来预测的。


2、用户体检策略

        尽管搜索引擎针对某个查询条件能够返回数量巨大的结果,但是用户往往只关注前几页结果。因此,抓取系统可以优先更新那些在查询结果中排名靠前的网页,然后再更新排名靠后的网页。这种更新策略也需要用到历史信息。用户体验策略保留网页的多个历史版本,并且根据过去每次的内容变化对搜索质量的影响得出一个平均值,将该值作为决定何时重新抓取的依据。


3、聚类抽样策略

        前面提到的两种更新策略都有一个前提:需要网页的历史信息。这样就会存在两个问题:第一,系统如果为每个网页保存多个历史版本信息,则无疑增加了系统负担;第二,如果新的网页完全没有历史信息,则无法确定更新策略。

        聚类抽样策略认为,网页具有很多属性,类似属性的网页可以认为其更新频率也是类似的。要计算某个类别网页的更新策略,只需对这类网页抽样,以他们的更新周期作为整个类别的更新周期。


 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值