python读取整个json文件_在Python中读取大量json文件？

最新推荐文章于 2024-06-03 22:22:31 发布

weixin_39738774

最新推荐文章于 2024-06-03 22:22:31 发布

阅读量1.1k

点赞数

文章标签： python读取整个json文件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39738774/article/details/111835681

版权

这不是关于读取大型JSON文件，而是关于以最有效的方式读取大量JSON文件。在

问题

我正在使用来自Million song dataset的last.fm数据集。

数据以一组JSON编码的文本文件的形式提供，其中的键是：track_id、artist、title、timestamp、similar和tags。在

目前，我在经过几个选项后，通过以下方式将它们读入pandas，因为这是最快的，如图here：import os

import pandas as pd

try:

import ujson as json

except ImportError:

try:

import simplejson as json

except ImportError:

import json

# Path to the dataset

path = "../lastfm_train/"

# Getting list of all json files in dataset

all_files = [os.path.join(root,file) for root, dirs, files in os.walk(path) for file in files if file.endswith('.json')]

data_list=[json.load(open(file)) for file in all_files]

df = pd.DataFrame(data_list, columns=['similars', 'track_id'])

df.set_index('track_id', inplace=True)

在当前方法中读取小于1的完整数据集。然而，阅读完整的火车集太慢了，而且要花很多时间(我也等了几个小时)才能阅读，并且已经成为了进一步任务的瓶颈，如question here所示。在

我还在解析json文件时使用ujson，这可以从this question here明显看出

更新1

使用生成器而不是理解列表。在

^{pr2}$

weixin_39738774

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python读取整个json文件_在Python中读取大量json文件？

这不是关于读取大型JSON文件，而是关于以最有效的方式读取大量JSON文件。在问题我正在使用来自Million song dataset的last.fm数据集。数据以一组JSON编码的文本文件的形式提供，其中的键是：track_id、artist、title、timestamp、similar和tags。在目前，我在经过几个选项后，通过以下方式将它们读入pandas，因为这是最快的，如图here：...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。