scrapy框架结构与工作原理

最新推荐文章于 2024-08-06 10:59:23 发布

weixin_30345577

最新推荐文章于 2024-08-06 10:59:23 发布

阅读量141

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/master-song/p/9035561.html

版权

组件：

ENGINE：引擎，框架的核心，其他组件在其控制下协同工作。

SCHEDULER：调度器，负责对SPIDER提交的下载请求进行调度

DOWNLOADER：下载器，负责下载页面，发送HTTP请求/接收HTTP响应

SPIDER：爬虫，负责提取页面数据，并产生对新的页面的下载请求

MIDDLEWARE：中间件，负责对Request对象和Response对象进行处理

ITEM PIPELINE：数据管道，负责对爬取到的数据进行处理

数据流：

REQUEST：Scrapy中HTTP请求对象

RESPONSE：Scrapy中HTTP响应对象

ITEM ：从页面中爬取的一项数据

理解Scrapy爬虫工作原理，以对象在框架中流动的过程解释：

*当SPIDER要爬取URL地址的页面时，需使用该URL构造一个Request对象，提交给ENGINE；

*Request对象随后进入SCHEDULER按照某种算法进行排队，之后某个时间SCHEDULER将其出队，送往DOWNLOADER；

*DOWNLOADER根据Request对象中的URL地址发送一次HTTP请求到网站服务器，之后用服务器返回的HTTP响应构造一个Response对象，其中包含HTML文本

*Response对象最终会被传递到SPIDER的页面解析函数进行处理，从页面中提取的数据封装为ITEM提交给ENHINE，之后被送到ITEMPIPLINES进行处理，最终可能以某种形式存

储，另一方面页面解析函数还会从页面中提取URL，构造新的Request对象；

转载于:https://www.cnblogs.com/master-song/p/9035561.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30345577

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

孤寒者的博客

08-09

62万+

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

Scrapy工作原理

可爱程序员

01-31

9774

一、Scrapy架构图 Scrapy框架主要由六大组件组成，它们分别是调试器(Scheduler)、下载器(Downloader)、爬虫（Spider）、中间件（Middleware）、实体管道(Item Pipeline)和Scrapy引擎(Scrapy Engine) 1、Scrapy Engine(引擎): 引擎负责控制数据流在系统的所有组件中流动，并在相应动作发生时触发事件。 2、...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫| 爬虫框架Scrapy的构架、工作原理及工作流程是怎样的？

Saki_Python的博客

08-02

1669

*（3）Downloader（下载器）：**下载器负责发送HTTP请求并获取网页内容，负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理。**（4）Spider（爬虫）：**负责解析网页内容并提取数据，它负责处理所有Responses，从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。

Scrapy 框架结构及工作原理

weixin_30788239的博客

05-22

495

1、下图为 Scrapy 框架的组成结构，并从数据流的角度揭示 Scrapy 的工作原理 2、首先、简单了解一下 Scrapy 框架中的各个组件组件描述类型 ENGINE 引擎，框架的核心，其他所有组件在其控制下协同工作内部组件 SCHEDULER 调度器，负责对 SPIDER ...

深入解读 Scrapy 框架原理与源码

最新发布

weixin_52392194的博客

08-06

1433

以上内容详细解读了 Scrapy 框架的运行原理、底层源码、中间件和自定义功能，涵盖了从请求生成、响应处理到数据存储的完整流程。

爬虫 8：scrapy框架简介

panjunxiao的博客

10-08

151

Scrapy框架官方网址：http://doc.Scrapy.org/en/latest Scrapy中文维护站点：http://Scrapy-chs.readthedocs.io/zh_CN/latest/index.html 如下所示：绿线是数据流向 Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、...

python爬虫学习之Scrapy框架的工作原理

weixin_30951389的博客

12-28

124

一、Scrapy简介　　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。这里贴出Scrapy框架官方中文文档的链接...

Scrapy框架的原理及简单使用

Awangbsi的博客

06-28

1823

一.介绍: Scrapy是一个纯Python编写，为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。二.环境搭建: Scrapy的安装：1. scrapy需要安装第三方库文件，lxml和Twisted2. 下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/3.下载好文件之后，在DO...

浅谈Scrapy网络爬虫框架的工作原理和数据采集

09-19

Scrapy是一个强大的Python爬虫框架，它被设计用于高效、快速地抓取大规模网络数据。Scrapy不仅仅是为了处理那剩余的10%的复杂爬虫需求，而是为了提供一套全面的解决方案，使得开发者能够构建复杂的爬虫系统，同时...

Scrapy框架简介与基本原理解析

Scrapy框架概述 ## 1.1 什么是Scrapy框架 Scrapy是一个用Python编写的开源网络爬虫框架，用于快速、高效地提取网站上的数据。它提供了一套强大的工具和机制，使得用户能够轻松地编写爬虫并提取所需的数据。 ```...

Python爬虫基础：scrapy 框架结构及scrapy.Spider

weixin_62853513的博客

04-02

1326

scrapy 框架结构 思考 scrapy 为什么是框架而不是库? scrapy是如何工作的? 项目结构在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令: 注意:创建项目时，会在当前目录下新建爬虫项目的目录。这些文件分别是: scrapy.cfg:项目的配置文件 quotes/:该项目的python模块。之后您将在此加入代码 quotes/items.py:项目中的item文件 quotes/middlewares.py:爬虫中间件、下载中间件(处理请

Scrapy框架结构及工作原理

qq_41360111的博客

02-11

1752

话不多说，先上图1 首先，简单了解一下Scrapy框架中的各个组件对于用户来说，Spider是最核心的组件，Scrapy爬虫开发是围绕实现Spider展开的。接下来，看一下在框架中的数据流，有下表所示的3种对象。 Request和Response是HTTP协议中的术语，即HTTP请求和HTTP响应，Scrapy框架中定义了相应的Request和Response类，这里的...

Scrapy框架原理

weixin_41188789的博客

06-05

234

Scrapy框架是一个为了抓取网站数据，提取结构性数据而编写的应用框架，只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy 使用了 Twisted异步网络框架来处理网络通讯，可以加快下载速度，并且包含了各种中间件接口，可以灵活的完成各种需求。 Scrapy框架的工作流程：（1）首先爬虫文件发送Requests请求，经过引擎交给调度器。（2）调度器对请求进行排序、入队处理后，经过引擎和...

Scrapy中的数据流过程展示

万丈高楼平地起

07-10

836

Scrapy中的数据流由执行引擎控制，其过程如下: 引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。引擎向调度器请求下一个要爬取的URL。调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(r

Scrapy框架快速入门（一）

lxq_9532的博客

08-08

396

scrapy的简介 Scrapy 使用了Twisted[‘twɪstɪd]异步网络框架，可以加快我们的下载速度。 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取。 scrapy的工作流程模块介绍：调度器：Scheduler，实现一个队列，存放request对象，并发送给引擎引擎：Scrapy Engine，各功能...

Scrapy：爬虫领域的黑暗骑士，轻松征服互联网！

Saki_Python的博客

12-23

1525

Scrapy是一个用于抓取网站数据和提取结构性数据的开源框架。它基于Twisted异步网络引擎，采用了事件驱动的方式，使得其能够高效地处理大量请求并实现高度并发。编辑生成的爬虫文件，定义如何抓取和解析页面。

Python爬虫学习（scrapy框架）一

MiRemember的博客

12-29

503

Scrapy入门 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。它使用Twisted 这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。个人认为Scrapy是Pytho世界里最强大的爬虫框架，没有之一，它比BeautifulSoup更加完善，BeautifulSoup可以说是轮子，而Scrapy则是车子，不需要你关注太多的细节。Scrapy不仅支持python2.7，Python3也支持。安装scrapy pip install scrapy

Scrapy爬虫框架，入门案例（非常详细）