Scrapy爬虫框架介绍
cmd执行pip install scrapy安装框架;安装后小测:执行scrapy -h
Downloader Middleware
目的:实施Engine、 Scheduler和Downloader之 间进行用户可配置的控制
功能:修改、丢弃、新增请求或响应
Spider Middleware
目的:对请求和爬取项的再处理
功能:修改、丢弃、新增请求或爬取项
选用哪个技术路线开发爬虫
- 非常小的需求,requests库。
- 不太小的需求,Scrapy框架。
- 定制程度很高的需求(不考虑规模),自搭框架,requests > Scrapy。
Scrapy命令行格式
>scrapy<command>[options][args]
>#command:Scrapy命令
Scrapy爬虫的命令行逻辑
为什么Scrapy采用命令行创建和运行爬虫?
- 命令行(不是图形界面)更容易自动化,适合脚本控制。
- 本质上,Scrapy是给程序员用的,功能(而不是界面)更重要。
Scrapy爬虫的地位
- Python语言最好的爬虫框架
- 具备企业级专业爬虫的扩展性( 7x24高可靠性)
- 千万级URL爬取管理与部署
Scrapy足以支撑一般商业服务所需的爬虫能力
Scrapy爬虫的应用展望
-
普通价值
基于Linux, 7x24, 稳定爬取输出
商业级部署和应用(scrapyd-*)
千万规模内URL爬取、内容分析和存储 -
高阶价值
基于docker,虚拟化部署
中间件扩展,增加调度和监控
各种反爬取对抗技术