Pandas 文件读取和导出
更新时间:2020-12-28 00:16:20标签:pandas
io
说明
Pandas 中文教程修订中,欢迎加微信 sinbam 提供建议、纠错、催更。查看更新日志
我们拿到的数据一般是 CSV、Excel 等格式,将文件加载到 Pandas 的 DataFrame 对象,我们就可以用它的方法进行处理了。在处理结束后,我们也需要将文件导出 Excel 等格式,方便查看。
本页介绍最常用的文件格式和最基本的用法,如有必要会专题介绍更加详细的功能。
功能列表
下边是我们经常使用的方法:
格式 | 文件格式 | 读取函数 | 写入(输出)函数 |
---|---|---|---|
binary | Excel | read_excel | to_excel |
text | CSV | read_csv read_table | to_csv |
text | JSON | read_json | to_json |
text | 网页表格 HTML | read_html | to_html |
text | 剪贴板 | read_clipboard | to_clipboard |
SQL | SQL | read_sql | to_sql |
text | Markdown | to_markdown |
读取更多类型文件可查看官网文档。
其中:
- 读取函数一般会赋值给一个变量
df
,df = pd.read_<xxx>()
- 输出函数是将变量自身进行操作并输出
df.to_<xxx>()
CSV
从 CSV 文件中读取数据并加载到 DataFrame:
文件
# 文件目录
pd.read_csv('data.csv') # 如果文件与代码文件在同目录下
pd.read_csv('data/my/data.csv') # 指定目录
pd.read_csv('data/my/my.data') # CSV 文件扩展名不一定是 csv
# 使用网址 url
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv')
# 也可以从 StringIO 中读取
from io import StringIO
data = ('col1,col2,col3\n'
'a,b,1\n'
'a,b,2\n'
'c,d,3')
pd.read_csv(StringIO(data))
注:csv 文件扩展名不一定是 .csv
指定分隔符号
# 数据分隔转化是逗号, 如果是其他可以指定
pd.read_csv(data, sep='\t') # 制表符分隔 tab
pd.read_table(data) # read_table 默认是制表