hdf5存储时存储为一个大文件还是分开存储

使用hdf5存储数据的时候,一直有一个疑问:

在存储大量数据的时候,是存为一个hdf文件,按照不同的key存储,还是存为多个hdf文件?

进行了一个不严谨的测试:

生产数据

import pandas as pd
import numpy as np
import time

store = pd.HDFStore('store.h5', mode='w')
# 生成一个1亿行,5列的标准正态分布随机数表
# 每2千万行数据存为一个key
for i in range(5):
    df = pd.DataFrame(np.random.rand(20000000,5))
    store[f'df_{i}'] = df
store.close()


for i in range(5):
    store = pd.HDFStore(f'store_{i}.h5', mode='w')
    # 生成一个1亿行,5列的标准正态分布随机数表
    # 每2千万行数据存为一个hdf文件
    df = pd.DataFrame(np.random.rand(20000000,5))
    store['df'] = df
    store.close()

单个hdf形式读取时间

cost = []
for _ in range(10):
    for i in range(5):
        start = time.time()
        tmp = pd.read_hdf(f'store.h5', key=f'df_{i}')
        cost.append(time.time() - start)

print(sum(cost) / len(cost))

输出

# Mac Studio M1 32G
0.3154940748214722
# 腾讯云4C8G
7.521324100494385

多个hdf形式读取时间

cost = []
for _ in range(10):
    for i in range(5):
        start = time.time()
        tmp = pd.read_hdf(f'store_{i}.h5', key='df')
        cost.append(time.time() - start)
        
print(sum(cost) / len(cost))
# Mac Studio M1 32G
0.34778618812561035
# 腾讯云4C8G
8.038995904922485

结果比较

存储方式腾讯云4C8GMac Studio M1 32G
单个hdf7.5213241004943850.3154940748214722
多个hdf8.0389959049224850.34778618812561035

单个hdf的时间稍快一些,但也有限

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Morphy_Amo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值