Scrapy框架

最新推荐文章于 2024-06-22 16:33:22 发布

诺亚废船

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量3.1k

点赞数 1

分类专栏： python爬虫文章标签： python 框架 selenium

本文链接：https://blog.csdn.net/m0_37752335/article/details/78494205

版权

python爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Scrapy基本流程

1.首先说一下框架的概念。之前一直故步自封与一个requests+bs4以及一些Selenium+Phantomjs零零散散的一些爬虫流程。从招聘网站上看到python爬虫的工作都需要掌握Scrapy框架以及Selenium技术才恍然大悟，一个成型的框架首先搭建好了一个完整的爬虫逻辑，各个功能也相对封装的很棒，对于大规模数据爬取，只要将对主要爬虫细节进行设计（每个网页的结构特点不同导致），就可以实现高效的数据爬取，包括异步爬取与分布式爬取。

简要说一下Scrapy框架的基本构成元素以及运行的流程

基本元素

1.Scrapy Engine: 这是引擎，负责Spiders、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等等！（像不像人的身体？）

2.Scheduler(调度器): 它负责接受引擎发送过来的requests请求，并按照一定的方式进行整理排列，入队、并等待Scrapy Engine(引擎)来请求时，交给引擎。

3.Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spiders来处理。（因为这一步会根据schedule队列发给engine再由engine通过DownloaderMiddlewares中间件交给Downloader向服务器发起请求并返回response并下载）所以例如cookies和User-Agent等信息通过这道工序传入（重点注意：接下来会讲解scrapy登陆篇）

4.Spiders：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。递归的处理页面，类似于横向网页爬取，每个网页上都有一定数量的类似商品详细链接，spiders将每一页网页上的一定数量的商品详细链接交给engine后再进入schedule队列准备进一步爬取商品详情页的信息。

5.Item Pipeline：它负责处理Spiders中获取到的Item，并进行处理，比如去重，持久化存储（存数据库，写入文件，总之就是保存数据用的）。

6.Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

7.Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spiders中间‘通信‘的功能组件（比如进入Spiders的Responses;和从Spiders出去的Requests）
数据在整个Scrapy的流向：

程序运行的时候，

引擎：Hi！Spider, 你要处理哪一个网站？

Spiders：我要处理23wx.com（start_urls中拿出第一个要爬取的内容）

引擎：你把第一个需要的处理的URL给我吧。

Spiders：给你第一个URL是XXXXXXX.com

引擎：Hi！调度器，我这有request你帮我排序入队一下。

调度器：好的，正在处理你等一下。（这一步是为了分布式处理与所要处理的url的去重操作）

引擎：Hi！调度器，把你处理好的request给我，

调度器：给你，这是我处理好的request

引擎：Hi！下载器，你按照下载中间件的设置帮我下载一下这个request

下载器：好的！给你，这是下载好的东西。（如果失败：不好意思，这个request下载失败，然后引擎告诉调度器，这个request下载失败了，你记录一下，我们待会儿再下载。）

(重要！）引擎：Hi！Spiders，这是下载好的东西，并且已经按照Spider中间件处理过了，你处理一下（注意！这儿responses默认是交给def parse这个函数处理的）

（重要！）Spiders：（处理完毕数据之后对于需要跟进的URL），Hi！引擎，这是我需要跟进的URL，将它的responses交给函数 def xxxx(self, responses)处理。还有这是我获取到的Item。

引擎：Hi ！Item Pipeline 我这儿有个item你帮我处理一下！调度器！这是我需要的URL你帮我处理下。然后从第四步开始循环，直到获取到你需要的信息，

注意！只有当调度器中不存在任何request了，整个程序才会停止，（也就是说，对于下载失败的ＵＲＬ，Scrapy会重新下载。）

以上就是Scrapy整个流程了。

诺亚废船

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Scrapy框架

Scrapy基本流程1.首先说一下框架的概念。之前一直故步自封与一个requests+bs4以及一些Selenium+Phantomjs零零散散的一些爬虫流程。从招聘网站上看到python爬虫的工作都需要掌握Scrapy框架以及Selenium技术才恍然大悟，一个成型的框架首先搭建好了一个完整的爬虫逻辑，各个功能也相对封装的很棒，对于大规模数据爬取，只要将对主要爬虫细节进行设计（每个网页的结构特点不
复制链接

扫一扫