python无法处理特别大的数据文件_用python处理非常大的netCDF文件

最新推荐文章于 2022-10-14 20:59:02 发布

weixin_39805924

最新推荐文章于 2022-10-14 20:59:02 发布

阅读量190

点赞数

文章标签： python无法处理特别大的数据文件

我正在尝试处理来自非常大的netCDF文件（每个文件大约400 Gb）的数据。每个文件都有几个变量，都比系统内存大得多（例如180 Gb与32 Gb RAM）。我试图使用numpy和netCDF4 python对这些变量执行一些操作，一次复制一个片段并对该片段进行操作。不幸的是，仅仅读取每个片段就要花很长时间，这会扼杀性能。

例如，其中一个变量是形状(500, 500, 450, 300)的数组。我想对切片进行操作，所以我要执行以下操作：import netCDF4 as nc

f = nc.dataset('myfile.ncdf','r+')

myvar = f.variables['myvar']

myslice = myvar[:,:,0]

但最后一步需要很长时间（在我的系统上大约5分钟）。例如，如果我在netcdf文件中保存了形状为(500, 500, 300)的变量，那么相同大小的读取操作只需要几秒钟。

有什么办法可以加快速度吗？一个明显的方法是对数组进行转置，这样我选择的索引将首先出现。但在这么大的文件中，这在内存中是不可能实现的，而且考虑到一个简单的操作已经需要很长时间，尝试它似乎更慢。我想要的是一种快速读取netcdf文件片段的方法，采用Fortran的接口get_vara函数的方式。或者是有效地变换阵列的方法。

weixin_39805924

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python无法处理特别大的数据文件_用python处理非常大的netCDF文件

我正在尝试处理来自非常大的netCDF文件（每个文件大约400 Gb）的数据。每个文件都有几个变量，都比系统内存大得多（例如180 Gb与32 Gb RAM）。我试图使用numpy和netCDF4 python对这些变量执行一些操作，一次复制一个片段并对该片段进行操作。不幸的是，仅仅读取每个片段就要花很长时间，这会扼杀性能。例如，其中一个变量是形状(500, 500, 450, 300)的数组。我...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。