python 下载图片 写硬盘 慢_在SSD磁盘上向h5py写入数据似乎很慢:我该怎么做才能加快速度...

我试图将数据写入h5py数据集,但使用高内存12核GCE实例写入SSD磁盘,但它运行了13个小时,看不到尽头。

我在GCE实例上运行Jupyter Notebook,在将大量小文件(存储在第二个非ssd磁盘上)添加到存储在ssd磁盘上的文件中的h5py数据集之前,将它们解压最大形状=(29914, 251328)

块=(59, 982)

压缩=gzip

数据类型=float64

我的代码列在下面#Get a sample

minsample = 13300

sampleWithOutReplacement = random.sample(ListOfPickles,minsample)

print(h5pyfile)

with h5py.File(h5pyfile, 'r+') as hf:

GroupToStore = hf.get('group')

datasetToStore = GroupToStore.get('ds1')

#Unpickle the contents and add in th h5py file

for idx,files in enumerate(sampleWithOutReplacement):

#Sample the minimum number of examples

time FilePath = os.path.join(SourceOfPickles,files)

#Use this method to auto close the file

with open(FilePath,"rb") as f:

%time DatasetToStore[idx:] = pickle.load(f)

#print("Processing file ",idx)

print("File Closed")

磁盘上的h5py文件似乎增加了1.4GB,我使用上面和下面的代码填充的每个数据集是我在h5py文件中创建数据集的代码

^{pr2}$

为了减少填充h5py文件所需的时间,我可以对我的配置或代码或两者进行哪些改进?在

更新1

我给jupyter笔记本添加了一些魔法来计时这个过程,我欢迎任何关于加快加载到数据存储的建议,据报道这需要8小时CPU times: user 0 ns, sys: 0 ns, total: 0 ns

Wall time: 14.1 µs

CPU times: user 8h 4min 11s, sys: 1min 18s, total: 8h 5min 30s

Wall time: 8h 5min 29s

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值