前言:都说爬虫学的好,局子蹲到老。小编可是遵纪守法的大大的良民,我们学习爬虫只是为了服务大众千万不要谋取个人利益。切记!切记!切记!重要的事情说三遍! | |
---|---|
一:谈起Scrapy框架客观咱们先看图说话
(1)-> 框架核心(代号:引擎)Scrapy Engine :负责控制数据在系统中所有组件间的流动,并在相应动作发生触发事件。
(2)-> 调度器Scheduler:从引擎接受Request并将它们放入一个网络请求队列,方便引擎请求时提供给引擎。爬虫的网络请求在被创建后会由Scheduler进行调度,比如多个请求间隔多少时间,那个请求在前那个请求在后。
(3)-> HTTP请求的真正执行者Downloader,完成网络请求工作,负责获取页面数据并提供给引擎,再提交给spider。
启动爬虫框架后在不考虑细节的情况下分为一下7步。
①:启动爬虫,Scrapy Engine (引擎)开始工作。
②: 引擎调用Spider中的方法,在spider中请求第一个要爬取的URL即是起始url(satrt_urls列表中的URL),并包含爬取目标网页URL的Request对象。
③:Spider中将构造的Request作为方法返回值返回给Scrapy Engine转发给Downloader。
④:Scrapy Engine 把经过Spider Middlewares 加工的Request转发给Scheduler.
⑤:Scheduler会在合适的时机,将Request通过Scrapy转发给Downloader,这个过程中Request又被Downloader Middlewares再次加工。
⑥:Downloader负责下载网页数据,然后将返回的数据以Response对象的形式通过Scrapy Engine 传给Spider,在此过程中如有必要,Response 对象会经过Downloader Middlewares的加工处理默认情况下spider中的parse() 方法被调用,此时就可以执行数据解析逻辑,提取网页中的目标数据。
⑦:在parse()方法中提取的数据会被构造成item的形式,并以返回值的形式传递给Scrapy Engine,然后再被pipeline模块进行保存数据。
- 经过上面把各个组件之间的关系简单的介绍了一下,下面说一说爬虫的创建与目录中模块的作用。
二 : 创建爬虫框架
流程如下
①:scrapy startproject 爬虫名(工程名根据实际情况起)
②:cd 爬虫名 (进入到框架中)
③: scrapy genspider 爬虫文件名 + 起始url
如 :scrapy genspider file www.baidu.com
- 这里就是创建的爬虫工程,file是我们的爬虫文件,start.py是我们创建用来启动爬虫的文件,主要是不想每次都在命令行写启动命令。
satrt.py编写上启动命令:
from scrapy.cmdline import execute
execute(‘scrapy crawl file’.split())
file 是我们的爬虫文件。
- scrapy.cfg不需要更改这里不做介绍
- spiders 目录下面放file.py爬虫文件,file中name变量是定义爬虫的名字,allowed_domains变量注释掉,start_url变量:定义爬取的起始url
- items.py 是统一各个组件间数据的格式
- pipeline 管道,是处理数据的模块,在这个模块可以通过代码把数据保存到 MySql 或者 MongoDB 等数据库中。
- middlewares.py 中间件 为了扩展方便爬虫框架功能而存在。允许用户一定程度上定义自己的爬虫
- settings.py 是非常重要的模块,承担了设置爬虫行为模块,模块的启用等功能,涉及到配置反反爬虫的设置。
关于爬虫框架重要的内容就是这些。
欢迎提出问题,收藏点赞转发谢谢客观!