python json文件太大_python - python json.dump创建的文件太大 - 堆栈内存溢出

最新推荐文章于 2023-09-17 21:19:54 发布

7七月

最新推荐文章于 2023-09-17 21:19:54 发布

阅读量1k

点赞数

文章标签： python json文件太大

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28951347/article/details/113480468

版权

本文档描述了一个问题，即从CSV文件中提取数据并将其转换为大型JSON结构时遇到的问题。作者创建了一个包含约380 MB CSV数据的数据结构，并在Python中填充了它。在尝试使用`json.dump`将此数据结构写入文件时，过程变得极其缓慢，生成的文件超过3 GB。文章询问如何有效地解决这个问题。

摘要由CSDN通过智能技术生成

所以我有这个CSV文件，大小为380 MB左右。我为此创建了一个空数据结构：{ID1 {day1：[[flow，hour1]，[flow，hour2] ... [flow，hour23]]，day2：[...] ... day30：[ ...]}，ID2 ...}。我从csv中提取内容，并在下面的循环中填充了此结构，这大约需要3分钟。每30天，每24小时大约有2000个ID。然后，当我尝试将此填充的结构转储到json文件中时，花费了数小时，并且输出文件的大小超过了3 GB，然后我退出了脚本。由于JSON应该更紧凑，这是否应该发生？因为我尝试使用较小的比例尺(1000个条目)并且效果很好。有解决这个问题的好方法吗？谢谢。

注意：'stations'是row ['ID']也应匹配的站点列表。

import csv

import json, pprint, datetime, time

meta_f = open( metadata_path , 'rb' )

meta_read = csv.DictReader(meta_f,delimiter='\t')

hour_f = open(hourly_path,'r')

hour_read = csv.DictReader(hour_f, delimiter=',')

stations = []

no_coords = []

for i,row in enumerate(meta_read):

if not row['Longitude'] or not row['Latitude']:

no_coords.append(row['ID'])

elif in_box(row,bound):

stations.append(row['ID'])

data={}

number_of_days=30

days={}

for i in range(1,number_of_days+1):

days[i]=[]

for station in stations:

data[int(station)]=days

with open('E:/pythonxy/Projects/UP/json_data.txt','wb') as f:

json.dump({},f)

f.close()

with open('E:/pythonxy/Projects/UP/json_data.txt','rb') as f:

d=json.load(f)

#i=0

t0=time.time()

for row in hour_read:

#if i>1000:

#break

if row['Station'] in stations:

#print row['Station']

t=datetime.datetime.strptime(row['TimeStamp'], '%m/%d/%Y %H:%M:%S')

data[int(row['Station'])][int(t.day)]+=[[row['TotalFlow'],t.hour]]

#i+=1

#print i

d.update(data)

print time.time()-t0

t0=time.time()

with open('E:/pythonxy/Projects/UP/json_data.txt','wb') as f:

json.dump(d,f)

f.close()

print time.time()-t0

print 'DONE'

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。