关于Scrapy爬虫框架架构那些事儿

最新推荐文章于 2024-07-25 17:11:44 发布

二手Java程序员

最新推荐文章于 2024-07-25 17:11:44 发布

阅读量373

点赞数 3

分类专栏：笔记文章标签：爬虫架构 python

本文链接：https://blog.csdn.net/a778203081/article/details/124741509

版权

笔记专栏收录该内容

12 篇文章 1 订阅

订阅专栏

前言：都说爬虫学的好，局子蹲到老。小编可是遵纪守法的大大的良民，我们学习爬虫只是为了服务大众千万不要谋取个人利益。切记！切记！切记！重要的事情说三遍！

一：谈起Scrapy框架客观咱们先看图说话
在这里插入图片描述（1）-> 框架核心（代号：引擎）Scrapy Engine :负责控制数据在系统中所有组件间的流动，并在相应动作发生触发事件。
（2）-> 调度器Scheduler：从引擎接受Request并将它们放入一个网络请求队列，方便引擎请求时提供给引擎。爬虫的网络请求在被创建后会由Scheduler进行调度，比如多个请求间隔多少时间，那个请求在前那个请求在后。
（3）-> HTTP请求的真正执行者Downloader，完成网络请求工作，负责获取页面数据并提供给引擎，再提交给spider。
启动爬虫框架后在不考虑细节的情况下分为一下7步。
①：启动爬虫，Scrapy Engine （引擎）开始工作。
②：引擎调用Spider中的方法，在spider中请求第一个要爬取的URL即是起始url(satrt_urls列表中的URL)，并包含爬取目标网页URL的Request对象。
③：Spider中将构造的Request作为方法返回值返回给Scrapy Engine转发给Downloader。
④：Scrapy Engine 把经过Spider Middlewares 加工的Request转发给Scheduler.
⑤：Scheduler会在合适的时机，将Request通过Scrapy转发给Downloader，这个过程中Request又被Downloader Middlewares再次加工。
⑥：Downloader负责下载网页数据，然后将返回的数据以Response对象的形式通过Scrapy Engine 传给Spider,在此过程中如有必要，Response 对象会经过Downloader Middlewares的加工处理默认情况下spider中的parse() 方法被调用，此时就可以执行数据解析逻辑，提取网页中的目标数据。
⑦：在parse()方法中提取的数据会被构造成item的形式，并以返回值的形式传递给Scrapy Engine,然后再被pipeline模块进行保存数据。

经过上面把各个组件之间的关系简单的介绍了一下，下面说一说爬虫的创建与目录中模块的作用。

二：创建爬虫框架
流程如下
①：scrapy startproject 爬虫名(工程名根据实际情况起)
②：cd 爬虫名（进入到框架中）
③： scrapy genspider 爬虫文件名 + 起始url
如：scrapy genspider file www.baidu.com

这里就是创建的爬虫工程，file是我们的爬虫文件，start.py是我们创建用来启动爬虫的文件，主要是不想每次都在命令行写启动命令。

satrt.py编写上启动命令：
from scrapy.cmdline import execute
execute(‘scrapy crawl file’.split())
file 是我们的爬虫文件。

scrapy.cfg不需要更改这里不做介绍
spiders 目录下面放file.py爬虫文件，file中name变量是定义爬虫的名字，allowed_domains变量注释掉，start_url变量：定义爬取的起始url
items.py 是统一各个组件间数据的格式
pipeline 管道，是处理数据的模块，在这个模块可以通过代码把数据保存到 MySql 或者 MongoDB 等数据库中。
middlewares.py 中间件为了扩展方便爬虫框架功能而存在。允许用户一定程度上定义自己的爬虫
settings.py 是非常重要的模块，承担了设置爬虫行为模块，模块的启用等功能，涉及到配置反反爬虫的设置。

关于爬虫框架重要的内容就是这些。
欢迎提出问题，收藏点赞转发谢谢客观！
在这里插入图片描述