爬虫python 新闻,Python爬虫实例--爬取人民网新闻

其实我只是因为在那边评论区想评论,然后发现位置不够,所以才打算写这个博客的,然后具体的可以看我转载的文章,很详细,我这边只说一下关于txt转换为JSON格式的问题

第一次写,格式可能很乱,见谅一下

话不多说,直接开始吧

这是未修改前得到的文本样式

bedb9379de75a29279cbbf32fec72554.png

这里的话可以看到,爬取的文章都是按照日期整整齐齐排列的,所以看起来很舒服方便

然后有些可能就算需要json格式来进行保存

当时看了下评论区,发现有这个要求的也有,也看到了有人在下方评论写了方法

尝试了下,如下图

da25ffb1f4131b655172462564cb19f4.png

格式修改了是不错,不过看着好别扭(密集恐惧症的朋友就更不推荐了)

所以再尝试了下其他方法,主要是想着如果能将刚开始运行得到的文件夹里面的所有txt文件一起转

化,然后除了格式,命名啥的不变就完美了,主要是看着方便

于是网上找了一下,再请教了下我组长,得到了如下

b069fa5e7c468e6fda519b6fc84d8616.png

这里面关于json格式我就简单的命名了下title部分,有其他需求的可以自己命名下

至于功能的话我觉得应该是可了的,直接全部转化,简洁方便,速度的话也快

代码如下

import json import re def txtToJson(path, out_path): # 文件路径 # path = "E:/Python/news require/data/20190502/20190502-01-01.txt" # 读取文件 with open(path, 'r', encoding="utf-8") as file: # 定义一个用于切割字符串的正则 seq = re.compile(":") result = [] # 逐行读取 for line in file: lst = seq.split(line.strip()) item = { "title": lst[0] } result.append(item) print(type(result)) # print(result) # 关闭文件 with open(out_path, 'w', encoding='utf-8') as dump_f: json.dump(result, dump_f, ensure_ascii=False, indent=4) def txtToJson_ext(): # 文件路径 # path

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值