说明
Pandas 中文教程修订中,欢迎加微信 sinbam 提供建议、纠错、催更。查看更新日志
我们拿到的数据一般是 CSV、Excel 等格式,将文件加载到 Pandas 的 DataFrame 对象,我们就可以用它的方法进行处理了。在处理结束后,我们也需要将文件导出 Excel 等格式,方便查看。
本页介绍最常用的文件格式和最基本的用法,如有必要会专题介绍更加详细的功能。
功能列表
下边是我们经常使用的方法:
格式
文件格式
读取函数
写入(输出)函数
binary
Excel
to_excel
text
CSV
read_csv read_table
to_csv
text
JSON
read_json
to_json
text
网页表格 HTML
read_html
to_html
text
剪贴板
read_clipboard
to_clipboard
SQL
SQL
read_sql
to_sql
text
Markdown
to_markdown
读取更多类型文件可查看官网文档。
其中:
读取函数一般会赋值给一个变量 df, df = pd.read_()
输出函数是将变量自身进行操作并输出 df.to_()
CSV
从 CSV 文件中读取数据并加载到 DataFrame:
文件
# 文件目录
pd.read_csv('data.csv') # 如果文件与代码文件在同目录下
pd.read_csv('data/my/data.csv') # 指定目录
pd.read_csv('data/my/my.data') # CSV 文件扩展名不一定是 csv
# 使用网址 url
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv')
# 也可以从 StringIO 中读取
from io import StringIO
data = ('col1,col2,col3\n'
'a,b,1\n'
'a,b,2\n'
'c,d,3')
pd.read_csv(StringIO(data))
注:csv 文件扩展名不一定是 .csv
指定分隔符号
# 数据分隔转化是逗号, 如果是其他可以指定
pd.read_csv(data, sep='\t') # 制表符分隔 tab
pd.read_table(data) # read_table 默认是制表符分隔 tab
列、索引、名称
# 默认第一行是表头,可以指定,如果指定列名会被忽略
pd.read_csv(data, header=0)
pd.read_csv(data, header=None) # 没有表头
pd.read_csv(data, names=['列1', '列2']) # 指定列名列表
# 如没列名,自动指定一个: 前缀加序数
pd.read_csv(data, prefix='c_', header=None)
# 读取部分列
pd.read_csv(data, usecols=[0,4,3]) # 按索引只读取指定列,顺序无关
pd.read_csv(data, usecols=[