做网页爬虫,最经常碰到的问题就是需要一层一层的拔取网页上的链接和数据,网络上的方法大都是自己做一个URL的列表,然后逐个爬取。Scrapy官方文档给出了较好的解决方法,使用方便,同时效率也很高,代码简洁。
Scrapy版本:1.4.0
Python版本: 2.7
这里以爬取搜房网二手房数据为例进行说明:
(1)首先也是第一步,就是设置爬虫的域名和staru_url
allowed_domains = ['esf.fang.com']
start_urls = ['http://esf.fang.com/']
(2)分析网页结构,
比如我的目标是安装区域进行数据爬取,那我就要获取一组链接,而不是一个一个的获得,推介使用Scrapy Shell工具进行初步的网页解析。
Scrapy Shell 'http://esf.fang.com/'
用Xpath获取目标列表:
Region_list = response.xpath('//*