其实我只是因为在那边评论区想评论,然后发现位置不够,所以才打算写这个博客的,然后具体的可以看我转载的文章,很详细,我这边只说一下关于txt转换为JSON格式的问题
第一次写,格式可能很乱,见谅一下
话不多说,直接开始吧
这是未修改前得到的文本样式
这里的话可以看到,爬取的文章都是按照日期整整齐齐排列的,所以看起来很舒服方便
然后有些可能就算需要json格式来进行保存
当时看了下评论区,发现有这个要求的也有,也看到了有人在下方评论写了方法
尝试了下,如下图
格式修改了是不错,不过看着好别扭(密集恐惧症的朋友就更不推荐了)
所以再尝试了下其他方法,主要是想着如果能将刚开始运行得到的文件夹里面的所有txt文件一起转
化,然后除了格式,命名啥的不变就完美了,主要是看着方便
于是网上找了一下,再请教了下我组长,得到了如下
这里面关于json格式我就简单的命名了下title部分,有其他需求的可以自己命名下
至于功能的话我觉得应该是可了的,直接全部转化,简洁方便,速度的话也快
代码如下
import json import re def txtToJson(path, out_path): # 文件路径 # path = "E:/Python/news require/data/20190502/20190502-01-01.txt" # 读取文件 with open(path, 'r', encoding="utf-8") as file: # 定义一个用于切割字符串的正则 seq = re.compile(":") result = [] # 逐行读取 for line in file: lst = seq.split(line.strip()) item = { "title": lst[0] } result.append(item) print(type(result)) # print(result) # 关闭文件 with open(out_path, 'w', encoding='utf-8') as dump_f: json.dump(result, dump_f, ensure_ascii=False, indent=4) def txtToJson_ext(): # 文件路径 # path