我们前面学习了requests和scrapy两种方式,作为两种技术路线,我们需要知道他们的相同点和不同点,以及我们应该按情况来使用
相同点
- 都可以进行页面请求和爬取
- 可用性好,文档丰富,入门简单
- 不用处理js,提交表单,应对验证等功能(需要扩展才能实现)
不同点
requests | scrapy |
---|---|
页面级爬虫 | 网站级爬虫 |
功能库 | 框架 |
并发性考虑不足 | 并发性好,性能较高 |
重点在于页面下载 | 重点在于爬虫结构 |
定制灵活 | 一般定制灵活,深度定制困难 |
上手十分简单 | 入门稍难 |
补充:
scrapy常用命令
命令 | 说明 | 格式 |
---|---|---|
start project | 创建一个新工程 | scrapy startproject<name’ [dir] |
genspider | 创建一个爬虫 | scrapy genspider [options’ <name’ <domain’ |
settings | 获得爬虫的配置信息 | scrapy settings [options’ |
crawl | 运行一个爬虫 | scrapy crawl <spider’ |
list | 列出工程中的所有爬虫 | scrapy list |
shell | 启动URL调试命令行 | scrapy shell [url] |