一、我们先将Requests库与Scrapy框架做一个比较:
- 相同点:
①两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线
②两者可用性逗号,文档丰富,入门简单
③两者都没有处理js、提交表单、应对验证码等功能(可扩展) - 不同点:
Requests | Scrapy |
---|---|
页面级爬虫 | 网站级爬虫 |
功能库 | 框架 |
并发性考虑不足,性能较差 | 并发性好,性能较高 |
重点在于页面下载 | 重点在于爬虫结构 |
定制灵活 | 一般定制灵活,深度定制困难 |
二、Requests和Scrapy各有千秋,我们在实现爬虫功能的时候应怎么选择呢?
①非常小的需求,用requests库
②不太小的需求,用Scrapy框架
③定制程度很高的需求(不考虑规模),自搭框架,用requests比Scrapy好