Scrapy研究探索（五）——自动多网页爬取（抓取某人博客所有文章）

最新推荐文章于 2025-10-09 10:48:35 发布

原创

最新推荐文章于 2025-10-09 10:48:35 发布 · 5.2w 阅读

36 ·

CC 4.0 BY-SA版权

文章标签：

#Scrapy #Scrapy教程 #python爬虫 #python #爬虫

本文基于Scrapy框架，详细介绍了如何从单网页爬取扩展到自动多网页爬取，涵盖items.py、pipelines.py、settings.py的编写，并在爬虫中设置download_delay以防止被ban。通过分析网页结构，抽取文章链接与题目，利用Request对象持续请求“下一篇”文章，实现博客全站文章的爬取。

首先，在教程（二）（http://blog.csdn.net/u012150179/article/details/32911511）中，研究的是爬取单个网页的方法。在教程（三）（http://blog.csdn.net/u012150179/article/details/34441655）中，讨论了Scrapy核心架构。现在在（二）的基础上，并结合在（三）中提到的爬取多网页的原理方法，进而进行自动多网页爬取方法研究。

并且，为了更好的理解Scrapy核心架构以及数据流，在这里仍采用scrapy.spider.Spider作为编写爬虫的基类。

首先创建project:

scrapy startproject CSDNBlog

一. items.py编写

在这里为清晰说明，只提取文章名称和文章网址。

# -*- coding:utf-8 -*-

from scrapy.item import Item, Field

class CsdnblogItem(Item):
    """存储提取信息数据结构"""

    article_name = Field()
    article_url = Field()

二. pipelines.py编写

最低0.47元/天解锁文章

1 条评论

素笺鸣 2018.06.04
现在博主博客的分页方式已经改变，既没有了“下一页”的链接，博文列表页下方的页码也不能按普通的方式抓取到，请问有没有其它的解决办法？

qq_36256013 2017.12.05
全是错的

weixin_35840855 2017.09.15
2017-09-15 10:49:56 [scrapy.core.scraper] ERROR: Spider error processing 楼主按照您的方法出现如上错误，没有找到原因，是怎么回事呢，谢谢楼主~

看雪山海间 2017.01.19
githubgithubgithub

fabien_xia 2016.02.12
我按照楼主的写Pipeline一直报错说 AttributeError : 'CsdnblogPipeline' object has no attribute "file"求解救

-Love-Coding- 2015.12.30
想请问下楼主数据怎么传到Pipeline？

pwtpui 2015.10.09
刚学习Python和爬虫，看到您的这系列文章学习到很多，很好懂，特别是最后有这个多网页爬取的例子，很好。感谢分享！

逐梦之风 2015.07.23
你好，我参照你的博客写了一个根据论坛主页爬取子论坛标题的Scrapy项目，但是遇到一个问题， ERROR: Spider must return Request, BaseItem or None, got 'list' in <GET http://bbs.28tui.com/forum-44-1.html> 。不知道博主是否遇到这样的问题呢？能否加您QQ联系呢？