导入数据
pandas库内置很多数据导入的方法,常用方法见下表格:
函数 | 描述 |
---|---|
read_csv | 从文件、URL或文件型对象读取分隔好的数据,逗号(’,’)是默认分隔符 |
read_table | 从文件、URL或文件型对象读取分隔好的数据,制表符(’\t’)是默认分隔符 |
read_json | 从JSON(JavaScript Object Notation)字符串中读取数据 |
read_csv / read_table函数常用参数如下:
参数 | 描述 |
---|---|
path | 表明文件系统位置的字符串、URL或文件型对象 |
sep或delimiter | 用于分隔每行字段的字符序列或正则表达式 |
header | 用作列名的行号,默认是0(第一行),如果没有列名的话,应该为None |
index_col | 用作结果中行索引的列号或列名,可以是一个单一的名称/数字,也可以是一个分层索引 |
names | 结果的列名列表,和header=None一起用 |
skiprows | 从文件开头处起,需要跳过的行数或行号列表 |
na_values | 需要用NA替换的值序列 |
举几个参数使用的栗子:
pd.read_table('examples/ex1.csv', sep=',')
out: a b c d message
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo
pd.read_csv('examples/ex2.csv', header=None)
out: 0 1 2 3 4
0 1 2 3 4 hello
1 5 6<