python-scrapy爬虫框架

scrapy爬虫框架

    1.Scrapy爬虫框架

  1. scrapy 不是一个函数功能库,而是一个爬虫框架。
  2. scrapy爬虫框架:
    1. 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
    2. .简单说爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。
  3. scrapy爬虫框架共包含七个部分(5+2结构),五个主体部分,两个中间件。数据流如图。
  4. 框架的入口SPIDERS,出口为ITEM PIPELINES,DOWNLOADER,ENGIN,SCHEDULER模块已经实现了,用户只需要编写ITEM PIPELINES和SPIDERS模块。SPIDERS提供需要访问的url链接,同时对网页进行解析,而ITEM PIPELINES对页面的后处理。
  5.  这种对模块代码的编写方式,也可以叫做配置。

2.模块介绍

  1. Engin:控制所有模块之间的数据流,根据条件触发事件,不需要用户修改。
  2. Downloader:根据请求下载页面,不需要用户修改。
  3. Scheduler:对所有爬取请求进行调度管理,不需要用户修改。
  4. 中间件模块Downloader Middleware
    1. 实施Engin,Scheduler和Downloader之间用户可配置的控制。
    2. 通过中间件修改,丢弃,新增请求或响应。
  5. Spider:解析Downloader返回的响应(Response),产生爬取项(scraped item)和爬取请求(Requset),是最核心单元,是需要用户编写主要模块。
  6. Item Piplines:以流水线方式处理Spide产生的爬取项。有一组操作顺序组成,每个操作是一个Item Pipline类型。包括清理,检验和查重爬取项中的ITEM数据,将数据存储到数据库等操作。需人工配置。
  7. Spider Middleware:
    1. 对请求和爬取项再处理。
    2. 通过中间件修改,丢弃,新增请求或爬取项。

    
3.requests库与Scarpy

  1. 相同点:都可以进行网页请求和爬取,是python的两个重要的爬虫实现路线;可用性好;都没有处理js,提交表单,应对验证码的功能;
requests VS. scrapy
requestsscrapy
网页级爬虫网站级爬虫
功能库框架
并发性考虑不足,性能差并发性好,性能较高
重点在页面下载重点在爬虫结构
定制灵活一般定制灵活,深度定制难
上手简单入门稍难

 

  1. 小需求,推荐使用requests库,不太小的推荐使用scrapy框架。自搭框架建议使用requests。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秘境之眼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值