Scrapy框架学习——介绍

是什么

scrapy是基于Twisted的异步处理框架,纯Python实现的爬虫框架,只需要定制开发模块就可以爬虫了

  • Engine(引擎):类似一个管理者

  • Scheduler(调度器):队列,接受ScrapyEngine(引擎)发送过来的Request请求,将请求排队

  • Downloader(下载器):负责下载所有request发送锅里的数据,并将其获得的response交还给引擎,再由引擎将response交还给Spiders进行解析

  • Spider(爬虫):负责处理所有的response,如果这里还有下一次请求,就再把请求传到Scheduler里。在这里会写很多解析策略

  • Item Pipline(管道):负责后期的处理存储过滤等

  • Middlewares(中间件) :Downloader Spider

流程:

  • Spider写入口,Spider把入口交给引擎
  • 引擎通知调度器,对任务进行排队,Scheduler把排好的地址给引擎
  • 引擎把下载任务给下载器,下载器进行下载
  • 下载器没办好任务会告诉引擎,引擎继续给调度器,办好任务了会让引擎把信息给Spiders
  • Spiders看活干的怎样,数据好了就给管道,没好的继续给引擎

用作什么

  • Scrapy只需要定制开发模块就可以爬虫了
  • 如果没用Scrapy进行爬虫,需要进行 Urllib、requests、封装http头部信息类、多线程或协程、封装代理类,封装数据存储类、封装去重 等工作

转载于:https://my.oschina.net/u/4120078/blog/3046149

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值