python爬虫学习36
数据存储篇——TXT
在学习完数据的获取、数据的解析后我们下一步的动作就是要进行数据的存储,数据如何进行存储呢?有多种方法可供选择:
一、TXT文本文件存储
将数据保存为txt文件就要使用到Python的文件操作了,正好这里连带巩固一下python的基础操作:
将数据保存为txt的优势是操作简单、兼容性好,但是随之而来的缺点就是不利检索。在对数据检索和数据结构要求不高,不过如果偷懒也没关系(非必要使用其他存储方式)的话,txt存储yyds!
1-1 txt存储实例
通过分析网站找到名称等信息存放的节点,为在信息提取的时候提供依据
我要吐了。。。书上用的是pyquery库而我只会parsel。不过啊,让我研究出来了
最后示例如下:
import requests
from parsel import Selector
url = "https://ssr1.scrape.center/"
html = requests.get(url).text
ini_selector = Selector(text=html)
# 使用Python文件操作 创建一个txt文件 之后的信息将保存在里面
with open ("movies.txt", 'w', encoding="utf-8") as file:
# 经过分析 电影的名称信息都存储在 class属性为 “el-card” 的节点内
count = 0
for item in ini_selector.xpath('//div[@class="el-card item m-t is-hover-shadow"]').getall():
count += 1
file.write("--"*20)
file.write("\n")
ini_item = Selector(text= item)
# 标记电影特征的属性 为 href
info_movies_name = ini_item.xpath(f'//a[contains(@href, "detail/{str(count)}" )]/h2/text()')
# 电影名称
file.write(f'名称 :{info_movies_name.get()}\n')
# 标记电影类型的特征属性 为 class
info_movies_kind = ini_item.xpath('//div[@class = "categories"]/button/span/text()').getall()
file.write(f'电影类型 :{info_movies_kind}\n')
# 标记评分的特征属性为 class
info_movies_score = ini_item.xpath('//div/p[@class = "score m-t-md m-b-n-sm"]/text()')
file.write(f'评分 :{info_movies_score.get()}\n')
print('录入成功!')
运行结果:
运行成功后,在我们当前的文件夹下,出现了一个神秘的文档:
最后文档中的信息被存储如下:
以上就是保存为txt的方法,是不是贼简单
今日结束,明日继续!