python爬虫Scrapy

  Scrapy

1、python爬虫框架Scrapy

  爬虫框架是实现爬虫功能的一个软件结构和功能组建集合

  爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫

2、scrapy爬虫框架“5+2”结构解析

  2.1、Engine:框架核心,不需用户编写

  2.2、Downloader:下载网页,不需用户修改

  2.3、Scheduler:对爬虫请求进行调度管理,不需用户修改

  2.4、Downloader Middleware:

    目的:实施Engine、Scheduler和Downloader之间进行用户可配置的控制;

    功能:修改、丢弃、新增请求或响应;

    用户可以编写配置代码

  2.5、Spider:解析Downloader返回的响应(Response);产生爬取项(scraped item);产生额外爬取请求(Request),

  2.6、Item Pipelines:以流水线的形式处理Spider产生的爬取项;由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型;可能操作包括:清理、检查和查重爬取项中的HTML数据、将数据存储到数据库。

    需要用户编写配置代码

  2.7、Spider Middleware:

    目的:对请求和爬取项再处理

    功能:修改、丢弃、新增请求或爬取项

    用户可以编写配置代码

3、requests库与Scrapy比较

requests库scrapy框架
页面级爬虫网站级爬虫
功能库框架
并发性不足,性能差并发行好,性能较高
重点在于页面下载重点在于爬虫结构
定制灵活一般定制灵活,深入定制困难
上手简单入门稍难

 

 

 

 

 

 

 

 

 

4、Scrapy爬虫的常用命令

  4.1、startproject:创建一个新工程  scrapy startproject <name> [dir]

  4.2、genspider:创建一个爬虫  scrapy genspider [options] <name> <domain>

  4.3、settings:获得爬虫配置信息  scrapy settings [options]

  4.4、crawl:运行一个爬虫  scrapy crawl <spider>

  4.5、list:列出工程中所有爬虫  scrapy list

  4.7、shell:启动URL调试命令行  scrapy shell [url]

转载于:https://www.cnblogs.com/oldhuang/p/10357747.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值