爬虫python 新闻,Python爬虫实例--爬取人民网新闻

最新推荐文章于 2024-07-31 16:08:35 发布

weixin_39719127

最新推荐文章于 2024-07-31 16:08:35 发布

阅读量2.3k

点赞数

文章标签：爬虫python 新闻

本文介绍了如何使用Python将爬取的人民网新闻txt文件转换为JSON格式。通过提供的一段代码，实现了批量转换txt文件，并对转换过程进行了详细说明。最后，作者提到尝试将爬虫和转换过程合并，但遇到问题，希望有经验的读者提供帮助。

摘要由CSDN通过智能技术生成

其实我只是因为在那边评论区想评论，然后发现位置不够，所以才打算写这个博客的，然后具体的可以看我转载的文章，很详细，我这边只说一下关于txt转换为JSON格式的问题

第一次写，格式可能很乱，见谅一下

话不多说，直接开始吧

这是未修改前得到的文本样式

这里的话可以看到，爬取的文章都是按照日期整整齐齐排列的，所以看起来很舒服方便

然后有些可能就算需要json格式来进行保存

当时看了下评论区，发现有这个要求的也有，也看到了有人在下方评论写了方法

尝试了下，如下图

格式修改了是不错，不过看着好别扭(密集恐惧症的朋友就更不推荐了)

所以再尝试了下其他方法，主要是想着如果能将刚开始运行得到的文件夹里面的所有txt文件一起转

化，然后除了格式，命名啥的不变就完美了，主要是看着方便

于是网上找了一下，再请教了下我组长，得到了如下

这里面关于json格式我就简单的命名了下title部分，有其他需求的可以自己命名下

至于功能的话我觉得应该是可了的，直接全部转化，简洁方便，速度的话也快

代码如下

import json import re def txtToJson(path, out_path): # 文件路径 # path = "E:/Python/news require/data/20190502/20190502-01-01.txt" # 读取文件 with open(path, 'r', encoding="utf-8") as file: # 定义一个用于切割字符串的正则 seq = re.compile(":") result = [] # 逐行读取 for line in file: lst = seq.split(line.strip()) item = { "title": lst[0] } result.append(item) print(type(result)) # print(result) # 关闭文件 with open(out_path, 'w', encoding='utf-8') as dump_f: json.dump(result, dump_f, ensure_ascii=False, indent=4) def txtToJson_ext(): # 文件路径 # path

最低0.47元/天解锁文章

weixin_39719127

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫