Scrapy 结构图解析

  • Scrapy1.4.0科普文章
  • 下面是Scrapy 结构图
    scrapy 结构图

  • 上图的数字代表数据的流向,解释如下

  • 1 引擎从Spider 获取初始Request对象
  • 2 引擎将获取的Request对象交给调度器Scheduler,并向Spider要下一个Request对象
  • 3 调度器将下一个Request对象交给引擎
  • 4 引擎将Request对象交给下载器Downloader, 途径下载器中间件
  • 5 网页下载完成,下载器Downloader生成一个Response对象, 并经过下载中间件交给引擎
  • 6 引擎收到Response对象, 并交给Spider处理, 途径 Spider Middleware
  • 7 Spider 处理Response 对象, 并将提取的结构化数据构成Item,同时生成新的Request对象,一并交给引擎, 途径 Spider Middleware
  • 8 引擎将Item 交给ItemPipeline 处理, 将Request对象交给调度器Scheduler, 并继续想Spider要Request对象,直到没有Request对象可处理

  • 从上面的结构图可看出, Scrapy 框架以Engine 为核心来运转,当调度器中没有Request需要爬取时,爬取任务结束

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值