Scrapy框架介绍

最新推荐文章于 2023-12-01 15:57:21 发布

Triumph19

最新推荐文章于 2023-12-01 15:57:21 发布

阅读量525

点赞数 1

本文链接：https://blog.csdn.net/Triumph19/article/details/118487192

版权

理解了HTTP和爬虫的基本原理，就不难理解Scrapy的框架结构了。如图3-2所示为Scrapy的框架结构，包含了不同功能的组件、系统中发生的数据流及执行流程。

下面简单介绍一下Scrapy框架结构中包含的组件。
引擎（Engine) ，引擎犹如总指挥，是整个系统的“大脑”，指挥其他组件协同工作。
调度器（Scheduler)，调度器接收引擎发过来的请求，按照先后顺序，压入队列中，同时去除重复的请求。
下载器（Downloader),下载器用于下载网页内容，并将网页内容返回给爬虫（Scrapy下载器是建立在twisted这个高效的异步模型上的）。
爬虫（Spiders),爬虫作为最核心的组件，用于从特定的网页中提取需要的信息，即所谓的实体（Item）。用户也可以从中提取出链接，让Scrapy继续抓取下一个页面。
项目管道（Item Pipelines），项目管道负责处理爬虫从网页中抽取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息等。
下载中间件（Downloader Middlewares),下载器中间件介于引擎和下载器之间，主要处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件（Spider Middlewares），爬虫中间件介于引擎和爬虫之间，主要工作是处理爬虫的响应输入和请求输出。

Scrapy框架结构中传递和处理的数据主要有以下3种：
- 向网站发送的请求数据
- 网站服务器返回的响应数据
- 解析后的结构数据（类似于字典）。
Scrapy中定义的Request和Response类，用于保存请求和响应数据；Item类保存解析后的结构数据。它们分别对应于3-2中标识的Requests、Response和Items。

图3-2中第1-4步，执行的是HTTP请求，传递和处理的是向网站服务器发送的请求数据。
第1步：爬虫（Spider）使用URL(要爬取页面的网址）构造一个请求（Request)对象，提交给引擎（Engine）。如果请求要伪装成浏览器，或者设置代理IP，可以先在爬虫中间件中设置，再发送给引擎。
第2步：引擎将请求安排给调度器，调度器根据数据请求的优先级确定执行顺序。
第3步：引擎从调度器获取即将要执行的请求。
第4步：引擎通过下载中间件，将请求发送给下载器下载页面。
图3-2中第5-8步，执行的是HTTP响应，传递和处理的是网站服务器返回的相应数据。
第5步：页面完成下载后，下载器会生成一个响应（Response)对象并将其发送给引擎。下载后的数据会保存于响应对象中。
第6步：引擎接收来自下载器的响应对象后，通过爬虫中间件，将其发送给爬虫（Spider)进行处理。
第7步：爬虫将抽取到的一条数据实体（Item）和新的请求（如下一页的链接）发送给引擎。
第8步：引擎将从爬虫获取到的Item发送给项目管道（Item Pipelines），项目管道实现数据持久化等功能。同时将新的请求发送给调度器，再从第2步开始重复执行，引擎关闭该网站。

pip install scrapy

import scrapy

关注