java 增量写入文件_使用h5py对hdf5进行增量写入

我有一个关于如何使用python / h5py最好地写入hdf5文件的问题 .

我有以下数据:

-----------------------------------------

| timepoint | voltage1 | voltage2 | ...

-----------------------------------------

| 178 | 10 | 12 | ...

-----------------------------------------

| 179 | 12 | 11 | ...

-----------------------------------------

| 185 | 9 | 12 | ...

-----------------------------------------

| 187 | 15 | 12 | ...

...

大约10 ^ 4列,大约10 ^ 7行 . (大约10 ^ 11(1000亿)个元素,或者~100GB,1个字节的整数) .

使用这些数据,典型的使用几乎是一次写入,多次读取,典型的读取案例是获取第1列和另一列(比如254),将两列加载到内存中,并做一些奇特的统计 .

我认为一个好的hdf5结构将使上表中的每列都是hdf5组,从而产生10 ^ 4组 . 这样我们就不需要将所有数据都读入内存了,是吗? hdf5结构虽然尚未定义,但它可以是任何东西 .

现在的问题是:我一次收到~10 ^ 4行的数据(并且每次都没有完全相同的行数),需要将其逐步写入hdf5文件 . 我该怎么写这个文件?

我正在考虑python和h5py,但如果推荐的话可以使用其他工具 . 正在进行分块的方式,例如

dset = f.create_dataset("voltage284", (100000,), maxshape=(None,), dtype='i8', chunks=(10000,))

然后当另一个10 ^ 4行的块到达时,替换数据集?

或者将每个10 ^ 4行的块存储为单独的数据集更好?或者我真的需要知道最后的行数吗? (这很难获得,但也许可能) .

我可以保释hdf5,如果它也不是适合这项工作的工具,不过我认为一旦尴尬的写作完成,它就会很精彩 .

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值