python爬虫学习36

python爬虫学习36

数据存储篇——TXT

在学习完数据的获取、数据的解析后我们下一步的动作就是要进行数据的存储,数据如何进行存储呢?有多种方法可供选择:

一、TXT文本文件存储

将数据保存为txt文件就要使用到Python的文件操作了,正好这里连带巩固一下python的基础操作:

将数据保存为txt的优势是操作简单、兼容性好,但是随之而来的缺点就是不利检索。在对数据检索和数据结构要求不高,不过如果偷懒也没关系(非必要使用其他存储方式)的话,txt存储yyds!

1-1 txt存储实例

实例网站

通过分析网站找到名称等信息存放的节点,为在信息提取的时候提供依据

在这里插入图片描述

我要吐了。。。书上用的是pyquery库而我只会parsel。不过啊,让我研究出来了

最后示例如下:

import requests
from parsel import Selector


url = "https://ssr1.scrape.center/"
html = requests.get(url).text
ini_selector = Selector(text=html)


# 使用Python文件操作 创建一个txt文件 之后的信息将保存在里面
with open ("movies.txt", 'w', encoding="utf-8") as file:
    # 经过分析 电影的名称信息都存储在 class属性为 “el-card” 的节点内
    count = 0
    for item in ini_selector.xpath('//div[@class="el-card item m-t is-hover-shadow"]').getall():
        count += 1
        file.write("--"*20)
        file.write("\n")
        ini_item = Selector(text= item)

        # 标记电影特征的属性 为 href
        info_movies_name = ini_item.xpath(f'//a[contains(@href, "detail/{str(count)}" )]/h2/text()')
        # 电影名称

        file.write(f'名称 :{info_movies_name.get()}\n')
        # 标记电影类型的特征属性 为 class
        info_movies_kind = ini_item.xpath('//div[@class = "categories"]/button/span/text()').getall()
        file.write(f'电影类型 :{info_movies_kind}\n')
        # 标记评分的特征属性为 class
        info_movies_score = ini_item.xpath('//div/p[@class = "score m-t-md m-b-n-sm"]/text()')
        file.write(f'评分 :{info_movies_score.get()}\n')
    print('录入成功!')

运行结果:

在这里插入图片描述

运行成功后,在我们当前的文件夹下,出现了一个神秘的文档:

在这里插入图片描述

最后文档中的信息被存储如下:

在这里插入图片描述

以上就是保存为txt的方法,是不是贼简单

今日结束,明日继续!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值