使用hdf5存储数据的时候,一直有一个疑问:
在存储大量数据的时候,是存为一个hdf文件,按照不同的key存储,还是存为多个hdf文件?
进行了一个不严谨的测试:
生产数据
import pandas as pd
import numpy as np
import time
store = pd.HDFStore('store.h5', mode='w')
# 生成一个1亿行,5列的标准正态分布随机数表
# 每2千万行数据存为一个key
for i in range(5):
df = pd.DataFrame(np.random.rand(20000000,5))
store[f'df_{i}'] = df
store.close()
for i in range(5):
store = pd.HDFStore(f'store_{i}.h5', mode='w')
# 生成一个1亿行,5列的标准正态分布随机数表
# 每2千万行数据存为一个hdf文件
df = pd.DataFrame(np.random.rand(20000000,5))
store['df'] = df
store.close()
单个hdf形式读取时间
cost = []
for _ in range(10):
for i in range(5):
start = time.time()
tmp = pd.read_hdf(f'store.h5', key=f'df_{i}')
cost.append(time.time() - start)
print(sum(cost) / len(cost))
输出
# Mac Studio M1 32G
0.3154940748214722
# 腾讯云4C8G
7.521324100494385
多个hdf形式读取时间
cost = []
for _ in range(10):
for i in range(5):
start = time.time()
tmp = pd.read_hdf(f'store_{i}.h5', key='df')
cost.append(time.time() - start)
print(sum(cost) / len(cost))
# Mac Studio M1 32G
0.34778618812561035
# 腾讯云4C8G
8.038995904922485
结果比较
存储方式 | 腾讯云4C8G | Mac Studio M1 32G |
---|---|---|
单个hdf | 7.521324100494385 | 0.3154940748214722 |
多个hdf | 8.038995904922485 | 0.34778618812561035 |
单个hdf的时间稍快一些,但也有限