Python爬虫框架Scrapy使用心得
Scrapy及爬虫简介
所谓爬虫,就是从互联网上自动获取信息的过程。Scrapy是Python语言下的一个使用广泛的爬虫框架,提供了公式化的爬虫代码模板,用户只需填充即可。爬虫所要解决的问题是共通的,经过多年发展,Scrapy内置了爬虫业务所需的众多功能(构造和发送请求对象、下载并解析响应对象、保存数据、处理各种异常),加速了爬虫开发,避免了开发者“重新造轮子”,但也意味着上手周期略长,内容繁杂,因此,需要注意随时查看对应版本权威且详细的官网文档。尽管如此,学习Scrapy还是非常值得的,因为它相当于聚合了requests、lxml等各种爬虫要用到的Python库并且对使用接口做了简化,相比用其它库组合起来的小爬虫,Scrapy爬虫更通用、容错性更强、更容易扩展,而且性能也不错。使用Scrapy需要有一定的Python语言基础但不用太深。Scrapy基于Python的twisted框架,有兴趣可以打开源码深入了解。
本文总结了Scrapy使用过程的心得体会,分享了遇到的一些坑,并给出一些具体的代码。但是需要注意Scrapy仍在更新中,一切以对应版本官方文档为准。