在使用Pandas处理数据时,常见的读取数据的方式时从Excel或CSV文件中获取,另外有时也会需要将处理完的数据输出为Excel或CSV文件。今天就一起来学习下Pandas常见的文件读取与导出的方法。
加载Excel文件
在Pandas中,Excel文件读取方法是:pd.read_excel()。具体可传参数为:
pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, **kwds)
其中:
io:excel文件,可以是文件路径、文件网址、file-like对象、xlrd workbook
sheetname:返回指定的sheet,参数可以是字符串(sheet名)、整型(sheet索引)、list(元素为字符串和整型,返回字典{‘key’:’sheet’})、none(返回字典,全部sheet)
header:指定数据表的表头,参数可以是int、list of ints,即为索引行数为表头
names:返回指定name的列,参数为array-like对象。
index_col:设定索引的列,参数可以是int、list of ints
usecol:设定需要解析的列,默认为None,代表解析素有,如果直传一个int,代表解析到最后的那个列,如果传的是list则返回的是限定的列,比如:“A:E”或“A,C,E:F”
squeeze:如果解析的数据只包含一列数据,则返回一个Series,默认返回为DataFrame
dtype:可以制定每列的类型,示例:{‘a’: np.float64, ‘b’: np.int32}
engine:如果 io 不是缓冲区或路径,则必须设置 io。 可接受的值是 None 或 xlrd
converters:自定形式,设定对应的列要用的转换函数。
true_values:设定安歇为True值,不常用
false_values:设定哪些为False值,不常用
shiprows:需要跳过的行,list-like类型
nrows:要分析的行数
na_values:N/A值列表
parse_dates:传入的是list,将指定的类解析为date格式
date_