文件读取与存储
我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。
注:最常用的HDF5和CSV文件
文件读取与存储
-
CSV读取与存储
- pd.read_csv()
- usecols参数用于选择部分列,而不是全部
- pd.to_csv()
- columns用于选择需要写出的列
- header控制是否写出列的名字
- index控制是否写出行的名字
- pd.read_csv()
-
HDF5读取与存储
- HDF5是一种容器,一个HDF5文件中可以存放多份DataFrame/Series数据,不同的数据用不同的Key来区分。
- pd.read_hdf(),如果文件中只有一个key,则可以不指定
- pd.to_hdf(),必须得指定key
-
CSV与HDF5对比
- 写效率:HDF5高
- 读效率:HDF5高
- 占空间:HDF5少
-
如何获取HDF5文件中的key?
- store = pd.HDFStore(‘high.h5’)
- store.keys()
-
JSON读取与存储
- pd.read_json()
- orient:文件的结构,这里的参数的值必须与文件的结构相符
- index,以行为单位
- columns,以列为单位
- records,以记录为单位
不同的参数值只影响文件的结构,不影响实际的数据 - lines: 也要和文件的结构相符,之在orient='records’才有意义
-
pd.to_json()
CSV
读取csv文件-read_csv
- pandas.read_csv(filepath_or_buffer, sep =’,’ , delimiter = None)
- filepath_or_buffer:文件路径
- usecols:指定读取的列名,列表形式
读取之前的股票的数据,并且指定只获取’open’, 'close’指标
import pandas as pd
# 读取文件,并且指定只获取'open', 'close'指标
data = pd.read_csv('./stock_day.csv',usecols = ['open','close'])
data.head()
写入csv文件-to_csv<