一,爬虫类型
依系统结构和开发技术可分4类:
通用网络爬虫
聚焦网络爬虫
增量式网络爬虫
深层网络爬虫
通用网络爬虫又称全网爬虫,如百度,谷歌,必应等搜索引擎
特点:
1,算法不对外公布;
2,爬取范围和数量巨大,爬取速度和存储空间要求高,爬取页面的顺序要求相对较低;
3,待刷新页面多,通常采用并行工作方式,但需要较长时间才能刷新一次页面;
4,适用于为搜索引擎搜索广泛的需求,
聚焦网络爬虫又称主题网络爬虫,是选择性的爬取需要的主题相关页面
增量式网络爬虫是对已下载网页采取增量式更新和只爬取新产生或已经发生变化的网页的爬虫,
它不重新下载没有变化的页面,可有效减少数据下载量,及时更新已爬取的网页,减小时间和空间上的耗费,
但增加了爬取算法的复杂度和实现难度,这类不太普及。
深层网络爬虫是大部分内容不能通过静态URL获取的,隐藏在搜索表单后的,只有用户提交一些关键词才能获得的网络页面。
比如一些需要用户登录或通过提交表单实现提交数据。此类为研究重点。
二,爬虫原理
#通用爬虫实现的原理及过程
初始URL
def inter_worm (URL)
if 待捉取URL:
读取URL并解释网页内容
数据入库
获取新URL
if 获取新URL:
inter_worm(URL)
if 满足停止条件:
结束
if 满足停止条件:
结束
聚焦网络爬虫执行原理和过程与通用爬虫大致相同,在其基础上增