当你开发比较多爬虫之后,会发现有一些功能是相通的,比如网站地图的爬取,XML源的数据抓取,CSV文件的抓取。scrapy框架提供了一些特殊功能的类来处理这种情况,这样我们再在上面开发,就可以省时省力了,达到四两拨千斤的效果。下面立即就来学习它们,学会了就可以应用到自己的工程里去。
主要有蜘蛛类CrawlSpider、XMLFeedSpider、CSVFeedSpider、 SitemapSpider。
在学习过程中,我们需要使用一些辅助数据结构,就是定义item对象TestItem,使用它来保存抓取的数据。假定已经在文件myproject.items里声明如下:
import scrapy
class TestItem(scrapy.Item):
id = scrapy.Field()
name = scrapy.Field()
descrip