python从date目录导入数据集_python – 将数据集转换为HDF5数据集

HDF5是一种高效的数据存储格式,支持多维数据集和大型数据。它可以容纳结构化数据如numpy数组、pandas DataFrame、图像等。文件系统般的分层结构允许通过路径名访问对象。HDFView工具方便与HDF5交互,而pandas库简化了将DataFrame写入和读取HDF5文件的过程。示例代码展示了如何使用pandas创建和操作HDF5文件。
摘要由CSDN通过智能技术生成

HDF5中的数据存储在数据集中,这些数据集可能是多维的,最多包含32个维度,每个维度最多包含无符号的64位整数长度(列数),并且包含任意大小的数据类型,包括上限的复合数据类型单个数据集的16艾字节.数据集用于保存结构化数据,如numpy数组,pandas DataFrames,图像和电子表格.我还没有找到任何方法直接将纯文本或tar.gz文件放入HDF5.但是,使用Python可以将文件读入字符串并将其放入数据集中,如

Strings in HDF5所示.除数据集外,组是HDF5中的另一个主要对象类型,是数据集和其他组的容器.数据集和组类似于文件和目录(或文件夹),并提供分层格式的基础,如Unix文件系统,其中可以使用以/开头的路径名访问对象. HDF5文件是可能包含多个数据集和组的容器,没有大小限制.

为了更好地了解HDF5是什么,我建议从HDF5 Downloads下载它和随附的实用程序以及HDFView,安装它然后经过Learning HDF5 with HDFView,这可以在30分钟内完成. HDFView是一个Java GUI,可以轻松地与HDF5进行交互,但是您不能简单地将文件拖放到其中,而是可以将文件数据导入到数据集中.使用pandas创建HDF5文件并向其添加DataFrame非常容易,这是将数据放入HDF5文件的好方法.以下是对此的演示.有关HDF5的更多信息,您可以查看HDF5 Tutorials,HDF5 Python Examples by API,Additional HDF5 Python Examples上列出的其他教程以及HDF5 for Python中的Python h5py软件包文档.有关pandas的更多信息,10 Minutes to pandas是一个很好的起点,接下来是pandas Cookbook的一系列代码示例和W00 McKinney的Python for Data Analysis,这是关于大熊猫的最佳教程,因为他发明并开发了大部分熊猫并且是一位出色的作者.

下面是一个使用pandas创建HDF5文件,将DataFrame加载到其中并检索并将其副本存储在另一个变量中的示例:

In [193]: import pandas as pd

In [194]: frame = pd.read_csv('test.csv')

In [195]: frame

Out[195]:

a b c d message

0 1 2 3 4 one

1 5 6 7 8 two

2 9 10 11 12 three

In [196]: type(frame)

Out[196]: pandas.core.frame.DataFrame

In [197]: hdf5store = pd.HDFStore('mydata.h5')

In [198] %ls mydata.h5

Volume in drive C is OS

Volume Serial Number is 5B75-665D

Directory of C:\Users\tn\Documents\python\pydata

09/02/2015 12:41 PM 0 mydata.h5

1 File(s) 0 bytes

0 Dir(s) 300,651,331,584 bytes free

In [199]: hd5store['frame'] = frame

In [200]: hdf5store

Out[200]:

File path: mydata.h5

/frame frame (shape->[3,5])

In [201]: list(hdf5store.items())

Out[201]:

[('/frame', /frame (Group) ''

children := ['block0_values' (Array), 'block0_items' (Array), 'axis1' (Array), 'block1_items' (Array), 'axis0' (Array), 'block1_values' (VLArray)])]

In [202]: hdf5store.close()

现在演示从mydata.h5检索帧的能力:

In [203]: hdf5store2 = pd.HDFStore('mydata.h5')

In [204]: list(hdf5store2.items())

Out[204]:

[('/frame', /frame (Group) ''

children := ['block0_values' (Array), 'block0_items' (Array), 'axis1' (Array), 'block1_items' (Array), 'axis0' (Array), 'block1_values' (VLArray)])]

In [205]: framecopy = hdf5store2['frame']

In [206]: framecopy

Out[206]:

a b c d message

0 1 2 3 4 one

1 5 6 7 8 two

2 9 10 11 12 three

In [207]: framecopy == frame

Out[207]:

a b c d message

0 True True True True True

1 True True True True True

2 True True True True True

In [208]: hdf5store2.close()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值