目录
概念
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
类型
类型 | 描述 |
通用网络爬虫 | 传统的搜索引擎,属于通用网络爬虫的范围,但是通用爬虫具有一定的局限性,因为它所面向的数据庞大而且繁杂,没有针对性,所以用通用爬虫爬出来的数据会有很多用户不关心的数据,且它对密集型的一些信息包括图片、音频、视频等不能够更好的发现以及获取。 |
聚焦网络爬虫 | 根据既定的目标,有选择的去访问相关的链接从而获取所需的信息。它跟通用网络爬虫相反。 |
增量式网络爬虫 | 增量式爬虫,对已下载的网页采取增量式的更新或者说,只爬取新产生的或者已经发生变化的网页。 |
深层网络爬虫 | 深层网络爬虫通常是要爬取用户登陆之后或者注册之后才能访问的那些界面。 |
网络爬虫的工作流程
如图所示,网络爬虫的整个工作流程有如下几步:
- 选取一部分要抓取的种子URL
- 将种子URL放到待抓取URL中
- 从待抓取的URL中得到URL,并进行解析,将其对应的网页下载下来,存储到已经下载的网页的库中。下载完毕之后,还将已经下载过了的URL放进已经抓取的URL中
- 分析已抓取的URL中的URL,从已经下载了的网页中的数据,再分析出新的URL,并跟已经抓取的URL进行比较去重,将最后去重留下来的URL再放到待抓取队列中,从而进入下一个循环
以上资料大部分出自《Python爬虫开发于项目实战》一书