pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较

最新推荐文章于 2024-05-27 15:04:33 发布

张月鹏

最新推荐文章于 2024-05-27 15:04:33 发布

阅读量5w

点赞数 9

分类专栏： python库文章标签： pandas json python 解析json

本文链接：https://blog.csdn.net/h4565445654/article/details/76400879

版权

python库专栏收录该内容

3 篇文章 0 订阅

订阅专栏

我所了解到的，将json串解析为DataFrame的方式主要有一样三种：

利用pandas自带的read_json直接解析字符串
利用json的loads和pandas的json_normalize进行解析
利用json的loads和pandas的DataFrame直接构造(这个过程需要手动修改loads得到的字典格式)

实验代码如下：

# -*- coding: UTF-8 -*-
from pandas.io.json import json_normalize
import pandas as pd
import json
import time

# 读入数据
data_str = open('data.json').read()
print data_str

# 测试json_normalize
start_time = time.time()
for i in range(0, 300):
    data_list = json.loads(data_str)
    df = json_normalize(data_list)
end_time = time.time()
print end_time - start_time

# 测试自己构造
start_time = time.time()
for i in range(0, 300):
    data_list = json.loads(data_str)
    data = [[d['timestamp'], d['value']] for d in data_list]
    df = pd.DataFrame(data, columns=['timestamp', 'value'])
end_time = time.time()
print end_time - start_time

#  测试read_json
start_time = time.time()
for i in range(0, 300):
    df = pd.read_json(data_str, orient='records')
end_time = time.time()
print end_time - start_time

实验结果如下：

可以看出由于read_json直接对字符串进行的解析,其效率是最高的，但是其对JSON串的要求也是最高的，需要满足其规定的格式才能够读取。 其支持的格式可以在pandas的官网点击打开链接可以看到。然而json_normalize是解析json串构造的字典的，其灵活性比read_json要高很多。 但是令人意外的是，其效率还不如我自己解析来得快（自己解析时使用列表解析的功能比普通的for循环快很多）。当然最灵活的还是自己解析，可以 在构造DataFrame之前进行一些简单的数据处理。

张月鹏

关注

9
点赞
踩
37

收藏

觉得还不错? 一键收藏
7
评论
pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较

我所了解到的，将json串解析为DataFrame的方式主要有一样三种：利用pandas自带的read_json直接解析字符串利用json的loads和pandas的json_normalize进行解析利用json的loads和pandas的DataFrame直接构造(这个过程需要手动修改loads得到的字典格式)
复制链接

扫一扫