首先,在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中,研究的是爬取单个网页的方法。在教程(三)(http://blog.csdn.net/u012150179/article/details/34441655)中,讨论了Scrapy核心架构。现在在(二)的基础上,并结合在(三)中提到的爬取多网页的原理方法,进而进行自动多网页爬取方法研究。
并且,为了更好的理解Scrapy核心架构以及数据流,在这里仍采用scrapy.spider.Spider作为编写爬虫的基类。
首先创建project:
scrapy startproject CSDNBlog
一. items.py编写
在这里为清晰说明,只提取文章名称和文章网址。
# -*- coding:utf-8 -*-
from scrapy.item import Item, Field
class CsdnblogItem(Item):
"""存储提取信息数据结构"""
article_name = Field()
article_url = Field()

本文基于Scrapy框架,详细介绍了如何从单网页爬取扩展到自动多网页爬取,涵盖items.py、pipelines.py、settings.py的编写,并在爬虫中设置download_delay以防止被ban。通过分析网页结构,抽取文章链接与题目,利用Request对象持续请求“下一篇”文章,实现博客全站文章的爬取。
最低0.47元/天 解锁文章
7040





