关于Scrapy爬虫框架架构那些事儿

前言:都说爬虫学的好,局子蹲到老。小编可是遵纪守法的大大的良民,我们学习爬虫只是为了服务大众千万不要谋取个人利益。切记!切记!切记!重要的事情说三遍!

一:谈起Scrapy框架客观咱们先看图说话
在这里插入图片描述(1)-> 框架核心(代号:引擎)Scrapy Engine :负责控制数据在系统中所有组件间的流动,并在相应动作发生触发事件。
(2)-> 调度器Scheduler:从引擎接受Request并将它们放入一个网络请求队列,方便引擎请求时提供给引擎。爬虫的网络请求在被创建后会由Scheduler进行调度,比如多个请求间隔多少时间,那个请求在前那个请求在后。
(3)-> HTTP请求的真正执行者Downloader,完成网络请求工作,负责获取页面数据并提供给引擎,再提交给spider。
启动爬虫框架后在不考虑细节的情况下分为一下7步。
①:启动爬虫,Scrapy Engine (引擎)开始工作。
②: 引擎调用Spider中的方法,在spider中请求第一个要爬取的URL即是起始url(satrt_urls列表中的URL),并包含爬取目标网页URL的Request对象。
③:Spider中将构造的Request作为方法返回值返回给Scrapy Engine转发给Downloader。
④:Scrapy Engine 把经过Spider Middlewares 加工的Request转发给Scheduler.
⑤:Scheduler会在合适的时机,将Request通过Scrapy转发给Downloader,这个过程中Request又被Downloader Middlewares再次加工。
⑥:Downloader负责下载网页数据,然后将返回的数据以Response对象的形式通过Scrapy Engine 传给Spider,在此过程中如有必要,Response 对象会经过Downloader Middlewares的加工处理默认情况下spider中的parse() 方法被调用,此时就可以执行数据解析逻辑,提取网页中的目标数据。
⑦:在parse()方法中提取的数据会被构造成item的形式,并以返回值的形式传递给Scrapy Engine,然后再被pipeline模块进行保存数据。

  • 经过上面把各个组件之间的关系简单的介绍了一下,下面说一说爬虫的创建与目录中模块的作用。

二 : 创建爬虫框架
流程如下
①:scrapy startproject 爬虫名(工程名根据实际情况起)
②:cd 爬虫名 (进入到框架中)
③: scrapy genspider 爬虫文件名 + 起始url
如 :scrapy genspider file www.baidu.com

  • 这里就是创建的爬虫工程,file是我们的爬虫文件,start.py是我们创建用来启动爬虫的文件,主要是不想每次都在命令行写启动命令。
    在这里插入图片描述
    satrt.py编写上启动命令:
    from scrapy.cmdline import execute
    execute(‘scrapy crawl file’.split())
    file 是我们的爬虫文件。
  1. scrapy.cfg不需要更改这里不做介绍
  2. spiders 目录下面放file.py爬虫文件,file中name变量是定义爬虫的名字,allowed_domains变量注释掉,start_url变量:定义爬取的起始url
  3. items.py 是统一各个组件间数据的格式
  4. pipeline 管道,是处理数据的模块,在这个模块可以通过代码把数据保存到 MySql 或者 MongoDB 等数据库中。
  5. middlewares.py 中间件 为了扩展方便爬虫框架功能而存在。允许用户一定程度上定义自己的爬虫
  6. settings.py 是非常重要的模块,承担了设置爬虫行为模块,模块的启用等功能,涉及到配置反反爬虫的设置。

关于爬虫框架重要的内容就是这些。
欢迎提出问题,收藏点赞转发谢谢客观!
在这里插入图片描述

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二手Java程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值