python网络爬虫之使用scrapy自动爬取多个网页

最新推荐文章于 2024-03-14 06:19:07 发布

dianjie9145

最新推荐文章于 2024-03-14 06:19:07 发布

阅读量2.1k

点赞数

文章标签： python 爬虫开发工具

原文链接：http://www.cnblogs.com/zhanghongfeng/p/7076160.html

版权

本文介绍了如何使用Python的Scrapy框架自动爬取多个网页。通过分析网页结构，利用LinkExtractor提取链接，并通过CrawlSpider的Rule设置跟进规则。示例中详细解释了从提取链接到回调函数处理的过程，以及如何优化爬虫的效率。

摘要由CSDN通过智能技术生成

前面介绍的scrapy爬虫只能爬取单个网页。如果我们想爬取多个网页。比如网上的小说该如何如何操作呢。比如下面的这样的结构。是小说的第一篇。可以点击返回目录还是下一页

对应的网页代码：

我们再看进入后面章节的网页，可以看到增加了上一页

对应的网页代码：

通过对比上面的网页代码可以看到. 上一页，目录，下一页的网页代码都在<div>下的<a>元素的href里面。不同的是第一章只有2个<a>元素，从二章开始就有3个<a>元素。因此我们可以通过<div>下<a>元素的个数来判决是否含有上一页和下一页的页面。代码如下

最终得到生成的网页链接。并调用Request重新申请这个网页的数据

那么在pipelines.py的文件中。我们同样需要修改下存储的代码。如下。可以看到在这里就不是用json. 而是直接打开txt文件进行存储

class Test1Pipeline(object):

    def __init__(self):

        self.file=''

    def process_item(self, item, spider):

        self.file=open(r'E:\scrapy_project\xiaoshuo.txt','wb')

        self.file.write(item['content'])

        self.file.close()

        return item