数据清洗之文件操作
读取:csv文件
- 实用read_csv方法读写,结果为dataframe格式
- 读写csv文件,文件名称用英文
- 参数较多,可以自行控制,很多使用默认参数
- 读csv,常用编码utf-8,gbk,gbk2312,gb18030
- 实用to_csv快速保存
import numpy as np
import pandas as pd
#便于更改文件路径
import os
#假如默认的路径下有一ex.csv文件
fd_data = pd.read_csv('ex.csv’)
fd_data.head() #默认得到前5行
fd_data.info() #查看字段类型
#display.max_columns和display.max_rows是为了解决列数或行数过多显示不全的问题
pd.set_option('display.max_columns',5)
pd.set_option('display.max_rows',5)
#指定读取的行数 ,nrows是为了自定义读取的行数,比如需要看一个大文档的前多少行
fd_data = pd.read_csv('ex.csv',nrows=5)
#将处理好的fd_data保存为csv文件。默认就是utf-8,index=false表示不把行索引保留到csv文件中去。
fd_data.to_csv('f.csv',encoding='utf-8',index = False)