pandas.read_csv功能很简单,就是读取csv文本文件到DataFrame变量中。就是参数比较多。
pandas.read_csv(诸多参数)
参数详解:
filepath_or_buffer : 字符串,文件路径,或者文件句柄,或者字符串IO
字符串可能是一个URL。有效的URL方案包括http、ftp、s3和file。对于文件URL,需要主机名 。例如,本地文件可以是://localhost/path/to/table.csv
sep : 字符串,分割符,默认值为‘,’
分割符的使用。如果sep为None,则C引擎无法自动检测分隔符,但Python解析引擎可以检测,这意味着将使用后者,并通过Python的内置嗅探器csves.niffer自动检测分隔符。此外,长度大于1个字符的分隔符将被解释为正则表达式,并强制使用Python解析引擎。注意,that regexdelimiters are prone to ignoring quoted data。正则表达式示例:’\r\t’。
delimiter : 字符串,分割符,默认值为 none
seq分割符参数的替代名称
delim_whitespace : 布尔,默认值为 False
是否指定使用空格隔离符,(列如: ’ ‘或 ’ ‘) ,等价于 sep=’\s+’. 如果此参数为True,隔离符参数将不发生效力
header :整数,或整数列表,缺省值 ‘infer’
数据开始前的列名所占用的行数,缺省值‘infer’将第一行视作列名,如果names参数有值,且header=0将使用names参数作为列名。如果skip_blank_lines=True,则header=0表示数据开始的第一行。header可以是一个整数的列表,如[0,1,3]。
names : 列名数组,缺省值 None
当header=None时,将使用 names作为列名,如果heander指定特定行,则使用names作为替代
index_col : int or sequence or False, default None
作为DataFrame的行标签使用的列。如果给定一个序列,则使用aMultiIndex。如果在每一行的末尾都有一个带有分隔符的格式错误的文件,那么可以考虑使用index_col=False来强迫pandas使用默认序列作为行名称
dtype : Type name or dict of column -> type, default None
指定列的数据类型,如:{‘a’: np.float64, ‘b’: np.int32} ,如果指定转换器,它们将被应用于dtype转换
engine : {‘c’, ‘python’}, optional
解析器引擎使用。C引擎的速度更快,而python引擎的功能则更完善。
encoding : str, default None
指定字符集类型,通常指定为’utf-8’.
部分参数省略