Pandas6_文件的读取和存储

import pandas as pd
  • 我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作
  • pandas的API支持众多的文件格式,例如CSV,SQL,XLS,JSON,HDF5

CSV文件

read_csv 读取文件

  • pandas.read_csv(filepath_or_buffer,sep =’,’,usecols)
  • filepath_or_buffer:文件路径
  • sep:分隔符,默认用“,”替换
  • usecols:指定重新读取的列名,列表形式
# 读取文件,并且指定只获取'open', 'close'指标
data = pd.read_csv("./data/stock_day.csv",usecols=['open', 'close'])
# 读取文件,并且获取所有
# data = pd.read_csv("./data/stock_day.csv")
data.head()
openclose
2018-02-2723.5324.16
2018-02-2622.8023.53
2018-02-2322.8822.82
2018-02-2222.2522.28
2018-02-1421.4921.92

to_csv 保存文件

  • DataFrame.to_csv(path_or_buf =无,sep =’,’,columns=无,header=真,index=真,模式=‘w’,编码=无)

  • path_or_buf:文件路径

  • sep:分隔符,默认用“,”替换

  • columns:选择需要的列索引

  • header:布尔值或字符串列表,默认为True,是否写进列索引值

  • index:是否写进行索引

  • 模式:‘w’:重组,'a’追加

# 保存'open'列的数据,然后读取查看结果
# 选取前10行数据保存,便于观察数据
data[:10].to_csv("./data/test1.csv",columns=['open'])
# 读取,查看结果
pd.read_csv("./data/test1.csv")
Unnamed: 0open
02018-02-2723.53
12018-02-2622.80
22018-02-2322.88
32018-02-2222.25
42018-02-1421.49
52018-02-1321.40
62018-02-1220.70
72018-02-0921.20
82018-02-0821.79
92018-02-0722.69
# 会发现将索引存入到文件当中,变成单独的一列数据。
# 如果需要删除,可以指定索引参数,删除原来的文件,重新保存一次。
data[:10].to_csv("./data/test2.csv",columns=['open'],index=False)
pd.read_csv("./data/test2.csv").head()
open
023.53
122.80
222.88
322.25
421.49

HDF5

read_hdf

  • HDF5文件的读取和存储需要指定一个键,估计要存储的DataFrame

  • pandas.read_hdf(path_or_buf,key = None,** kwargs)

    从h5文件当中读取数据

  • path_or_buffer:文件路径

  • key:读取的键

  • 返回:所选对象

# 读取
day_close = pd.read_hdf('./data/day_close.h5')
day_close.head()
000001.SZ000002.SZ000004.SZ000005.SZ000006.SZ000007.SZ000008.SZ000009.SZ000010.SZ000011.SZ...001965.SZ603283.SH002920.SZ002921.SZ300684.SZ002922.SZ300735.SZ603329.SH603655.SH603080.SH
016.3017.714.582.8814.602.624.964.665.376.02...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
117.0219.204.653.0215.972.654.954.705.376.27...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
217.0217.284.563.0614.372.634.824.475.375.96...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
316.1816.974.492.9513.102.734.894.335.375.77...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
416.9517.194.552.9913.182.774.974.425.375.92...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN

5 rows × 3562 columns

to_hdf

  • HDF5文件的读取和存储需要指定一个键,估计要存储的DataFrame
  • DataFrame.to_hdf(path_or_buf,key,* \ kwargs *)
# 存储文件,.h5文件需要指定键
day_close.to_hdf("./data/test1.h5", key="day1")
# 读取存储的.h5文件,再次读取的时候,需要指定键的名字
new_close = pd.read_hdf('./data/test1.h5', key='day1')
new_close.head()
000001.SZ000002.SZ000004.SZ000005.SZ000006.SZ000007.SZ000008.SZ000009.SZ000010.SZ000011.SZ...001965.SZ603283.SH002920.SZ002921.SZ300684.SZ002922.SZ300735.SZ603329.SH603655.SH603080.SH
016.3017.714.582.8814.602.624.964.665.376.02...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
117.0219.204.653.0215.972.654.954.705.376.27...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
217.0217.284.563.0614.372.634.824.475.375.96...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
316.1816.974.492.9513.102.734.894.335.375.77...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
416.9517.194.552.9913.182.774.974.425.375.92...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN

5 rows × 3562 columns

注意:优先选择使用HDF5文件存储

  • HDF5在存储的时候支持压缩,使用的方式是blosc,这个是速度驱动的也是pandas 替代支持的
  • 使用压缩可以提磁盘优化,节省空间
  • HDF5还是跨平台的,可以轻松迁移到hadoop上面

JSON

  • JSON是我们常用的一种数据交换格式,在前面的交互经常用到,也会在存储的时候选择这种格式。
  • 所以我们需要知道Pandas如何进行读取和存储JSON格式。

read_JSON

  • pandas.read_json(path_or_buf = None,orient = None,typ =‘frame’,lines = False)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GJ_WL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值