Pandas文件读取与存储
import pandas as pd
csv
1. 读取csv文件read_csv()
pd.read_csv('路径')
路径为必传参数
'''
read_csv还有两个参数
# usecols 当csv文件里面有多个字段(列索引),使用这个字段可以指定只读某些字段,列表格式
用法格式:
pd.read_csv('路径', usecols=['字段1','字段2'...])
# names 当csv文件里面没有指定的索引时,读的时候可以使用该参数添加字段名
用法格式:
pd.read_csv('路径', names=['字段A','字段B'...])
'''
2. 存储csv文件to_csv()
dataframe.to_csv('路径保存的文件名.csv')
dataframe表示数据Dataframe对象, Series数据用法一样
- 参数
columns 指定要存入文件的字段
格式:
dataframe.to_csv('路径.csv', columns=['字段1','字段2'...])
******************************************
index=False 默认为True,设置为false就是不存储行索引
格式:
dataframe.to_csv('路径.csv', index=False)
******************************************
mode 选择写入的方式'a','w'
格式:
dataframe.to_csv('路径.csv', mode='a')
******************************************
header=False 默认为True, 设置为false就是不存储列索引
格式:
dataframe.to_csv('路径.csv', header=False)
HDF5
hdf5文件是一个二进制文件, 存放的是三维数据,就是存放dataframe这种二维数据的,所以读取和存储的时候需要指定一个键key,值为要存储的DataFrame
读取read_hdf()
pd.read_hdf('路径',key=None, **kwargs)
***********
key: 读取的键,如果该文件只有一个键,可以不写,否则必须
mode: 打开文件的模式
***********
如果读取失败,可能读取的时候需要tables插件
pip install tables
存储to_hdf()
dataframe.to_hdf('路径.h5',key="必须加")
********
存储的时候必须加上key,否则报错
********
JSON
每条json数据都是以大括号{}
包着, 键值对形式存在,以逗号分隔,(如果以records方式读键就是列索引,就是字段)
读取read_json()
pd.read_json('路径', orient="records", lines=True)
******
orient='records' 为读取的一种形式,习惯上是这样写
line=True 按照每行读取json对象,默认是为False
存储to_json()
dataframe.to_json('路径.json', orient="records", lines=True)
存入的时候设置lines=True会把每个json对象进行分行处理