java 增量写入文件_使用h5py对hdf5进行增量写入

最新推荐文章于 2024-04-24 11:37:18 发布

Edith在努力

最新推荐文章于 2024-04-24 11:37:18 发布

阅读量429

点赞数

文章标签： java 增量写入文件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42320036/article/details/115041184

版权

我有一个关于如何使用python / h5py最好地写入hdf5文件的问题 .

我有以下数据：

-----------------------------------------

| timepoint | voltage1 | voltage2 | ...

-----------------------------------------

| 178 | 10 | 12 | ...

-----------------------------------------

| 179 | 12 | 11 | ...

-----------------------------------------

| 185 | 9 | 12 | ...

-----------------------------------------

| 187 | 15 | 12 | ...

...

大约10 ^ 4列，大约10 ^ 7行 . (大约10 ^ 11(1000亿)个元素，或者~100GB，1个字节的整数) .

使用这些数据，典型的使用几乎是一次写入，多次读取，典型的读取案例是获取第1列和另一列(比如254)，将两列加载到内存中，并做一些奇特的统计 .

我认为一个好的hdf5结构将使上表中的每列都是hdf5组，从而产生10 ^ 4组 . 这样我们就不需要将所有数据都读入内存了，是吗？ hdf5结构虽然尚未定义，但它可以是任何东西 .

现在的问题是：我一次收到~10 ^ 4行的数据(并且每次都没有完全相同的行数)，需要将其逐步写入hdf5文件 . 我该怎么写这个文件？

我正在考虑python和h5py，但如果推荐的话可以使用其他工具 . 正在进行分块的方式，例如

dset = f.create_dataset("voltage284", (100000,), maxshape=(None,), dtype='i8', chunks=(10000,))

然后当另一个10 ^ 4行的块到达时，替换数据集？

或者将每个10 ^ 4行的块存储为单独的数据集更好？或者我真的需要知道最后的行数吗？ (这很难获得，但也许可能) .

我可以保释hdf5，如果它也不是适合这项工作的工具，不过我认为一旦尴尬的写作完成，它就会很精彩 .

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java 增量写入文件_使用h5py对hdf5进行增量写入

我有一个关于如何使用python / h5py最好地写入hdf5文件的问题 .我有以下数据：-----------------------------------------| timepoint | voltage1 | voltage2 | ...-----------------------------------------| 178 | 10 | 12 ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。