行百里者半九十——scrapy 框架(2)

本文介绍了如何使用Scrapy框架实现数据的持久化存储,包括基于终端指令和基于管道的两种方法。首先,详细讲解了基于终端指令的存储步骤,展示了相关代码和运行结果。接着,讨论了这种方法的局限性,并转向介绍基于管道的持久化存储,说明了配置文件和管道文件的编写,以及运行后的效果。
摘要由CSDN通过智能技术生成

scrapy 持久化存储(以糗事百科为例)

前言

不知道大家还记得爬虫万能的三步骤吗?没错,那就是指定URL,发送请求,持久化保存数据。

我们前面在 scrapy框架(1)中简单了解了使用 scrapy 指定URL和发送请求,那么我们又要怎么使用 scrapy 实现数据的持久化存储呢?

scrapy 框架实现数据持久化存储的方法有两种,一种是基于终端命令的持久化存储;一种是基于管道的持久化存储。

基于终端指令的持久化存储

首先我们先创建相应的 scrapy 文件,用我们学过的方法完成指定URL和请求发送的步骤。

相关步骤如下
在这里插入图片描述
scrapy 指定URL,发送指令的文件和代码如下:

配置文件 setting.py

在这里插入图片描述
主代码 saveData.py

import scrapy


class SavedataSpider(scrapy.Spider):
    name = 'saveData'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # xpath 解析。作者的列表
        author_list = response.xpath('//div[@class="col1 old-style-col1"]/div/div[1]/a[1]/img/@alt').extract() # 返回一个列表
        # print(author_list)

        for i in range(len(author_list)):
            path = '//div[@class="col1 old-style-col1"]/div[%s]/a[1]/div/span//text()' % str(i+1)
            content = response.xpath(path).extract()
            content = "".join(content)
       
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值