Python网络爬虫案例实战：爬虫网络概述-爬虫网络更新策略

andyyah晓波

于 2024-08-08 09:20:47 发布

阅读量250

点赞数 8

分类专栏： Python网络爬虫案例实战文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/andyyah/article/details/141017473

版权

Python网络爬虫案例实战专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Python网络爬虫案例实战：爬虫网络概述-爬虫网络更新策略

互联网是实时变化的，具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略有以下3种。
1.历史参考策略
顾名思义，根据页面以往的历史更新数据，预测该页面未来何时会发生变化。一般来说，是通过泊松过程进行建模进行预测。
2.用户体验策略
尽管搜索引擎针对某个查询条件能够返回数量巨大的结果，但是用户往往只关注前几页结果。因此，爬取系统可以优先更新那些显示在查询结果前几页中的网页，而后再更新那些后面的网页。这种更新策略也是需要用到历史信息的。用户体验策略保留网页的多个历史版本，并且根据过去每次内容变化对搜索质量的影响，得出一个平均值，通过这个值决定何时重新爬取。
3.聚类抽样策略
前面提到的两种更新策略都有一个前提一–需要网页的历史信息。这样就存在两个问题：第一，系统要是为每个系统保存多个版本的历史信息，无疑增加了很多的系统负担；第二，要是新的网页完全没有历史信息，就无法确定更新策略。这种策略认为，网页具有很多属性，类似属性的网页，可以认为其更新频率也是类似的。要计算某一个类别网页的更新频率，只需要对这一类网页抽样，以它们的更新周期作为整个类别的更新周期。其基本思路如图1-17所示。
在这里插入图片描述

关注

8
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫案例实战：爬虫网络概述-爬虫网络更新策略

前面提到的两种更新策略都有一个前提一–需要网页的历史信息。第二，要是新的网页完全没有历史信息，就无法确定更新策略。这种策略认为，网页具有很多属性，类似属性的网页，可以认为其更新频率也是类似的。要计算某一个类别网页的更新频率，只需要对这一类网页抽样，以它们的更新周期作为整个类别的更新周期。因此，爬取系统可以优先更新那些显示在查询结果前几页中的网页，而后再更新那些后面的网页。用户体验策略保留网页的多个历史版本，并且根据过去每次内容变化对搜索质量的影响，得出一个平均值，通过这个值决定何时重新爬取。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。