python3爬虫系列06之整体架构式:根据关键词爬取百度图片
因为是从这一系列篇的开头,是说整个python3爬虫的一个架构,但是后面几篇例子呢,写的文章也没有这么多复杂的文件,于是决定开一篇,对着具体的流程介绍这个:
python3爬虫系列01之结构:爬虫整体架与常用模块库介绍
中的方案,今天这个就是按照这个流程写的一个爬虫例子,在爬虫项目中可能使用到。
整个代码的流程如图:
- 调度器询问URL管理器,是否有待爬URL?URL管理器返回是/否;
- 如果是,调度器会从URL管理器中取出一个待爬URL;
- 调度器将URL传给下载器,下载网页内容后返回给调度器;
- 调度器再将返回的网页内容发送到解析器,解析URL内容,解析完成后返回有价值的数据和新的URL;
- 一方面,调度器将数据传递给应用进行数据的收集