最近想在工作相关的项目上做技术改进,需要全而准的车型数据,寻寻觅觅而不得,所以就只能自己动手丰衣足食,到网上获(窃)得(取)数据了。
汽车之家是大家公认的数据做的比较好的汽车网站,所以就用它吧。(感谢汽车之家的大大们这么用心地做数据,仰慕)
俗话说的好,“十爬虫九python”,作为一只java狗,我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。
在写这个爬虫之前,我用urllib2,BeautifulSoup写了一个版本,不过效率太差,而且还有内存溢出的问题,作为python小白感觉很无力,所以用scrapy才是正道。
嗯,开搞。
准备工作
安装python,版本是2.7
安装scrapy模块, 版本是1.4.0
参考
汽车之家车型数据爬虫[https://github.com/LittleLory/codePool/tree/master/python/autohome_spider]:这是我工程的代码,以下内容需要参照着代码来理解,就不贴代码在这里了。
Scrapy中文文档:这是Scrapy的中文文档,具体细节可以参照文档。感谢Summer同学的翻译。
Xpath教程:解析页面数据要用到xpath的语法,简单了解一下,在做的过程中遇到问题去查一下就可以了。
初始化工程
scrapy工程的初始化很方便,在shell中的指定目录下执行scrapy start startproject 项目名称,就自动化生成了。
执行这步的时候遇到了一个问题,抛出了异常"