前段时间因为一个业务的需求需要解析一个HDF格式的文件。在这之前也不知道到底什么是HDF文件。百度百科的解释如下:
HDF是用于存储和分发科学数据的一种自我描述、多对象文件格式。HDF是由美国国家超级计算应用中心NCSA(全称:National Center for Supercomputing Application)创建的,采集软件,为了满足各种领域研究需求而研制的一种能高效存储和分发科学数据的新型数据格式。HDF可以表示出科学数据存储和分布的许多必要条件。
使用Python解析当然会用到第三方的包,如下:
import math
import pandas as pd
import xlwt
第一个是用来做数学计算的math包主要处理数学相关的运算。至于关于pandas的介绍请点击这里。xlwt这个包是写HDF文件的。
使用Python读取HDF文件的代码如下:
with closing(pd.HDFStore(HDF_FILR_URL)) as store:
df = store[date]
# index shoule be end -> region -> group
df.reset_index(inplace=True)
df.set_index(["end", "region", "group"], inplace=True)
df.sort_index(inplace=True)
其实这样获取到数据之后就是pandas提供的函数,获取自己需要的数据。
slice_df = df.loc[dt]
rtt = slice_df.rtt.unstack(level=0) / 1