Python爬虫(一):Scrapy架构流程介绍

本文介绍了Scrapy爬虫框架的基本概念和架构,包括Scrapy Engine、Scheduler、Downloader、Spiders和Item Pipeline等组件的作用。同时,概述了制作Scrapy爬虫的步骤,从新建项目、定义目标到创建爬虫和设计数据存储。最后,提到了Scrapy在Windows和Ubuntu上的安装方法。
摘要由CSDN通过智能技术生成

先来看一下Scrapy是什么

Scrapy是一套基于Twisted的移步处理框架,是纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。

1、Scrapy架构图(绿线为数据流)

  • Scrapy Engine(引擎):其本身什么事都不做,就只号发指令,完成通信的功能,指派四个组件完成相关操作。
  • Scheduler(调度器):负责接收 Scrapy Engine 发送来的 Requests,并将其整理(去重处理)排列进队列存放,当 Scrapy Engine 需要时,还给 Scrapy Engine 发送去 Downloader 进行下载。
  • Downloader(下载器):负责下载 Scrapy Engine 发送来的 Requests,并将其获取的 Responses 文件(经过下载中间件处理的)交还给 Scrapy Engine,由 Scrapy Engine 交给 Spiders 进行处理。
  • Spiders(爬虫):负责解析 Responses 文件 ,从中提取需要的数据 (Item、URL)。将 Item 数据交由 Scrapy Engine 传送给 Item Pipeline,将新的请求(URL) 交由 Scrap
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值