一、Scrapy爬虫框架介绍
- Scrapy是一个快速功能强大的网络爬虫框架
- Scrapy 不是一个函数功能库,而是一个爬虫框架
爬虫框架是实现爬虫功能的一个软件结构和功能组合集合。
爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。
二、Scrapy爬虫框架解析
1、Scrapy爬虫框架结构
Engine:
1.控制所有模块之间的数据流
2.根据条件触发事件
不需要用户修改
Downloader:
1.根据请求下载网页
不需要用户修改
Scheduler:
1.对所有爬虫请求进行调度管理
不需要用户修改
Spider:
1.解析Downloader返回的响应(Response)
2.产生爬取项(Scrapy item)
3.产生额外的爬取请求(Request)
需要用户编写配置代码
Item Pipelines:
1.以流水线方式处理Spider产生的爬取项
2.由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型
3.可能操作包括:清理