Scrapy爬虫的地位
- 我觉得是Python语言最好的爬虫框架
- 具备企业级专业爬虫的扩展性(7x24高可靠性)
- 可用于千万级URL爬取管理与部署
- 足以支撑一般商业服务所需的爬虫能力
PS:Scrapy 框架拥有持续爬取、商业服务、高可靠性等优势
Scrapy爬虫的应用展望
普通价值
- 基于 Linux,7x24,稳定爬取输出
- 商业级部署和应用(scrapyd-*)
- 千万规模内 URL 爬取、内容分析和存储
高阶价值
- 基于 docker,虚拟化部署
- 中间件扩展,增加调度和监控
- 各种反爬取对抗技术