第三次学习记录(Python)_增量式网络爬虫中的3中方法,分别是、和。-CSDN博客

本文链接：https://blog.csdn.net/AKITOMOKO/article/details/110303181

学习目标：

Python网络爬虫

学习内容：

1.爬虫的分类 2.爬虫的基本结构和工作流程

学习时间：

周二晚上9:00-10:00 周三晚上9:00-10:00 周四晚上9:00-10:00 周五晚上9:00-10:00

学习产出：

1.爬虫的分类

1.通用网络爬虫

爬取目标资源在在全互联网中，爬取目标数据巨大。
对爬取性能要求非常高。
主要由初始URL集合、URL队列、页面爬取模块、页面分析模块、页面数据库、链接过滤模块等构成。
爬行策略主要由深度优先爬行策略和广度优先爬行策略。

2.聚焦网络爬虫

是指爬取目标定位在于主题相关的页面中。
主要由初始URL、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块、链接评价模块等构成。
爬行策略有基于内容评价的，有基于链接评价的、有基于增强学习的、有基于语境图的。

3.增量式网络爬虫

是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫。
与周期性爬行和刷新页面的网络爬虫相比，增量式网络爬虫只会在需要时爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，但是增加了爬行算法的复杂度和实现难度。
体系结构包含爬行模块、排序模块、更新模块、本地页面集、待爬行URL集、本地页面URL集。
增量式网络爬虫需要通过重新访问网页来更新本地页面集中的页面内容，常用的方法有以下几种。
（1）统一更新法：爬虫以相同的频率访问所有页面，不考虑网页的更新频率。
（2）个体更新法：爬虫根据个体页面的改变频率来重新访问各页面。
（3）基于分类的更新法：爬虫根据网络改变频率将其分为更新较快网页和更新较慢网页子集两类，然后以不同的频率访问这两类网络。

4.深层网络爬虫

可以爬取网页中的深层页面。
在互联网中网页的存在分为两类，一种是表层页面，一种是深层页面。
表层页面指的是不需要提交表单，使用静态的链接就能够到达的静态页面，而深层页面则隐藏在表单后面，需要提交一定的关键词后才能获取。
深层网络爬虫最重要的部分为表单填写部分。
主要由URL列表、LVS列表（填充表单的数据源）、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等构成。