文件操作:
Pandas中提供了许多的操作文件的函数,包括读取和写入。我们做数据分析用得最多的,就是CSV
、Excel
、SQL
、JSON
文件。下面来针对这几种文件的操作做一个详细的讲解。
CSV文件操作:
读写CSV
文件分别用的是pd.read_csv
和pd.to_csv
方法。普通用法非常简单,但是通过一些参数,可以实现许多高级操作。
1. 读取csv:
读取csv
用的是pd.read_csv
,主要有以下参数:
filepath_or_buffer
:文件路径,或者是有read
方法的流对象。sep
:分隔符,默认是,
。header
:指定哪行作为列的名称,如果没有行作为列名,那么应该设置header=None,并且设置names参数。names
:在csv文件中没有一行来存储列名,可以使用names自己指定,并且设置header=None。index_col
:使用哪一列作为行索引,可以是列的位置,也可以是列的名称。如果没有指定,那么默认会自动生成一个顺序索引。usecols
:加载哪几列。比如有时候只想要csv文件中的某几列,那么就可以使用usecols
。也可以是个函数,这个函数返回True的列会被保留,否则会丢弃。engine
:csv解析引擎,有C和Python,C速度更快,但是Python功能更完善。dtype
:指定某些列的类型。converters
:转换器列表,可以指定每一列在加载的时候就转换为指定的类型。encoding
:使用指定的编码方式打开文件。chunksize
:使用迭代器的方式读取,一次返回多少行的数据。
更多参数请查看Pandas官网read_csv
:https://pandas.pydata.org/docs/user_guide/io.html#io-read-csv-table
2. 写入csv:
写入csv
用的是pd.to_csv
,Seri