首先,在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中,研究的是爬取单个网页的方法。在教程(三)(http://blog.csdn.net/u012150179/article/details/34441655)中,讨论了Scrapy核心架构。现在在(二)的基础上,并结合在(三)中提到的爬取多网页的原理方法,进而进行自动多网页爬取方法研究。
并且,为了更好的理解Scrapy核心架构以及数据流,在这里仍采用scrapy.spider.Spider作为编写爬虫的基类。
首先创建project:
scrapy startproject CSDNBlog
一. items.py编写
在这里为清晰说明,只提取文章名称和文章网址。
# -*- coding:utf-8 -*-
from scrapy.item import Item, Field
class CsdnblogItem(Item