scrapy框架

Scrapy框架

Scrapy介绍

Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,架构清晰,模块耦合度低,可扩展性极强,可以灵活完成各种需求。只需要定制开发几个模块就可以轻松实现一个爬虫。

架构介绍

在这里插入图片描述
它可以分为如下几个部分:

  • Engine 引擎,处理整个系统的数据流处理,触发事务,是整个框架的核心。
  • Item 项目,定义了爬取结果的数据结构,爬取数据会被赋为Item对象。
  • Scheduler 调度器,接受引擎发过来的的请求并将其加入队列中,在引擎需要时将请求提供给引擎。
  • Downloader 下载器,下载网页内容,并将网页内容返回给爬虫。
  • Spiders 爬虫,定义了爬取的逻辑和网页的解析规则,主要负责解析响应并生成提取结果和新的请求。
  • Item Pipeline 项目管道, 负责处理由爬虫从网页中抽取的项目,主要任务是清洗,验证和存储数据。
  • Downloader Middlewares 下载器中间件,位于引擎和下载器之间的钩子,主要处理引擎和下载器之间的请求和响应。
  • Spider Middlewares 爬虫中间件,位于引擎和爬虫之间的钩子,主要处理爬虫输入的响应和输出的结果及新的请求。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值