盘点Python中4种读取json文件和提取json文件内容的方法

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

古调虽自爱,今人多不弹。

大家好,我是Python进阶者。

前言

前几天在才哥的交流群有个叫【杭州-学生-飞飞飞】的粉丝在群里问了一个json文件处理的问题。

b5b870d4f0b46b2e35fad6931cf2a0e1.png看上去他只需要follower和ddate这两个字段下的对应的值。

ca6f8a25e4b88305ea714cd43b7bc950.png我们知道json是一种常见的数据传输形式,所以对于爬取数据的数据解析,json的相关操作是比较重要的,能够加快我们的数据提取效率。

思路

关于这个问题,倒不是很难,群里提出了三个方法,第一个是才哥说的pd处理或者正则表达式,第二个是小编自己提出的json处理,第三个是【成都-IT技术支持-小王】提出的jsonpath,总之方法很多,这里给出4个处理方法,希望下次粉丝们再遇到类似问题的时候,有章可循。

实现过程

1、正则表达式

这个方法可以看看,通过匹配的方法进行提取,代码如下所示:

import re
import json

file = open('漫画.txt', 'r', encoding='utf-8')
content = file.readline()
ddate_result1 = re.findall('"ddate":"(\d+\-\d+\-\d+)"', content)
ddate_result2 = re.findall('"ddate":"(.*?)"', content)
follower_result1 = re.findall('"follower":(\d+),"', content)

print(ddate_result1)
print(ddate_result2)
print(follower_result1)

运行之后,可以得到结果:

c68a484d34fe2a6a865151c1858986ae.png关于ddate,follower获取的方法肯定还有很多其他写法,这里只是抛砖引玉,欢迎大家多多尝试。

2、jsonpath方法一

关于jsonpath的用法,之前在这篇文章中有提及,感兴趣的小伙伴也可以去看看:数据提取之JSON与JsonPATH

下面是【成都-IT技术支持-小王】大佬给的代码:

from jsonpath import jsonpath
import json

"""follower和ddate"""
with open("漫画.txt", encoding="utf-8") as file:
    file_json = json.loads(file.readline())

follower = jsonpath(file_json, "$..follower")
ddate = jsonpath(file_json, "$..ddate")
print(follower)
print(ddate)

代码运行之后,就会得到想要的数据,如下图所示:

d22b7043b7918a602f57b15f68bbd8c8.png

这个..就和xpath里面的//一样,子孙节点,$是根节点。

3、jsonpath方法二

这个是另外一个用法了,小号【皮皮】提供的,直接上代码。

import json
import jsonpath


# obj = json.load(open('罗翔.json', 'r', encoding='utf-8'))  # 注意,这里是文件的形式,不能直接放一个文件名的字符串
file = open('漫画.txt', 'r', encoding='utf-8')  # 注意,这里是文件的形式,不能直接放一个文件名的字符串
obj = json.loads(file.readline())
follower = jsonpath.jsonpath(obj, '$..follower')  # 文件对象   jsonpath语法

ddate = jsonpath.jsonpath(obj, '$..ddate')  # 文件对象   jsonpath语法
print(follower)
print(ddate)

代码运行之后,也可以得到预期的结果。

835f7b63df6be962be4f72eabd27c644.png当然了,如果你的文件本来就是json文件,也可以直接读取,代码类似:

import json
import jsonpath


obj = json.load(open('罗翔.json', 'r', encoding='utf-8'))  # 注意,这里是文件的形式,不能直接放一个文件名的字符串
# file = open('罗翔.json', 'r', encoding='utf-8')  # 注意,这里是文件的形式,不能直接放一个文件名的字符串
# obj = json.loads(file.readline())
follower = jsonpath.jsonpath(obj, '$..follower')  # 文件对象   jsonpath语法

ddate = jsonpath.jsonpath(obj, '$..ddate')  # 文件对象   jsonpath语法
print(follower)
print(ddate)

运行之后,也可以得到预期的结果:

88a2bfbb1fa64d3a6f4fe67446d6ebb9.png
4、jsonpath方法三

这个是群里【深圳-Hua Bro】华博提供的,代码如下:

import json
import jsonpath

with open("罗翔.txt", 'r', encoding="UTF-8") as fr:
    file_json = eval(fr.read().replace('\n\u200b', ''))  # 读取的str转为字典
follower = jsonpath.jsonpath(file_json, '$..follower')  # 文件对象   jsonpath语法
ddate = jsonpath.jsonpath(file_json, '$..ddate')  # 文件对象   jsonpath语法
print(follower)
print(ddate)

方法大同小异,运行之后,也可以拿到预取的目标数据,如下图所示。

5d2110726bf74b5a0ec0d676a7403b1a.png

总结

我是Python进阶者。本文基于粉丝针对json文件处理的提问,综合群友们的回答,整理了4种可行的方案,帮助粉丝解决了问题。这里墙裂给大家推荐jsonpath这个库,感兴趣的小伙伴可以学习学习,下次再遇到json文件提取数据就再也不慌啦!

最后感谢粉丝【杭州-学生-飞飞飞】提问,感谢【才哥】、【成都-IT技术支持-小王】、【深圳-Hua Bro】和小编提供的思路和代码。文中提供了4种方法,亲测可行,小编相信肯定还有其他的方法的,也欢迎大家在评论区谏言。

如果需要本文的json文件做测试的话,可以前往小编的git进行获取。小编git地址:https://github.com/cassieeric/DataAnalysis/tree/main/json_file_process,欢迎大家start & fork觉得不错,记得给文章点个赞噢!

ecac2b423a76504546f3a471efe3d7ce.png

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

e5d0c9d6857414eb4ce84348e05333c6.png

------------------- End -------------------

往期精彩文章推荐:

df8e26eefe788767e78eb6b14673fb82.png

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值