1、常见的文件类型以及相应读取文件函数如下表所示:
文件类型 | 文件后缀名 | 读取文件函数 |
CSV文件 | .csv | read_csv() |
Excel文件 | .xlsx或.xls | read_excel() |
TXT文件 | .txt | read_table() |
2、假设有这么一个文件,文件名为“期末成绩统计”,表中内容如下:
姓名 | 语文 | 数学 | 英语 | 历史 | 地理 |
小明 | 102 | 98 | 106 | 78 | 86 |
小红 | 103 | 107 | 89 | 84 | 78 |
小强 | 104 | 78 | 88 | 91 | 94 |
小兰 | 105 | 110 | 99 | 69 | 79 |
3、读取文件
(1)假设上述文件为csv文件,csv文件一般是以英文逗号为数据分隔符,则读取CSV文件如下:
import pandas as pd
df = pd.read_csv('期末成绩统计.csv',sep=',')
(2)假设上述文件为Excel文件,且表格存储在"成绩单"的工作表中,则读取Excel文件如下:
import pandas as pd
df = pd.read_excel('期末成绩统计.xlsx',sheet_name='成绩单', index_col=None)
(3)假设上述文件为TXT文件,则读取TXT文件如下:
import pandas as pd
df = pd.read_table('期末成绩统计.txt', sep='\t',engine='python')
4、公共参数
上述三个读取文件的函数有一些公共参数。常见的公用参数含义如下表:
ps:参数设置为其默认值时可以不写该参数
参数名 | 参数含义 | 详解 |
header | 文件首行 |
|
index_col | 索引列 |
|
useclos | 读取列 |
|
parse_dates | 时间列 |
|
nrows | 读取行数 |
|