准备工作: 安装三个包: xlrd, xlwt, openpyxl,
其中xlrd版本不得高于 2.0.0
一、文件的读取和写入
1. 文件读取
pandas
可以读取的文件格式有很多,这里主要介绍读取 csv, excel, txt
文件。
常用的公共参数, header=None
表示第一行不作为列名, index_col
表示把某一列或几列作为索引,索引的内容将会在第三章进行详述, usecols
表示读取列的集合,默认读取所有的列, parse_dates
表示需要转化为时间的列, nrows
表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。
在读取 txt
文件时,经常遇到分隔符非空格的情况, read_table
有一个分割参数 sep
,它使得用户可以自定义分割符号,进行 txt
数据的读取。sep是正则参数在使用 read_table
的时候需要注意,参数 sep
中使用的是正则表达式,因此需要对 |
进行转义变成 \|
,否则无法读取到正确的结果。
2. 数据写入
一般在数据写入中,最常用的操作是把 index
设置为 False
,特别当索引没有特殊意义的时候,这样的行为能把索引在保存的时候去除。pandas
中没有定义