史上最全！用Pandas读取CSV，看这篇就够了

最新推荐文章于 2024-06-10 17:15:00 发布

0x8g1T9E

最新推荐文章于 2024-06-10 17:15:00 发布

阅读量2.8w

点赞数 17

分类专栏： DM ML DL 文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/sirobot/article/details/126177390

版权

例如，如果comment ='＃'，则解析header=0的'#empty \ na，b，c \ n1,2,3'会将'a，b，c'视为header。如果为某些或所有列启用了parse_dates，并且datetime字符串的格式都相同，则通过设置infer_datetime_format=True，可以大大提高解析速度，pandas将尝试推断datetime字符串的格式，然后使用更快的方法解析字符串，从而将解析速度提高5～10倍。names用来指定列的名称，它是一个类似列表的序列，与数据一一对应。...

摘要由CSDN通过智能技术生成

导读：pandas.read_csv接口用于读取CSV格式的数据文件，由于CSV文件使用非常频繁，功能强大，参数众多，因此在这里专门做详细介绍。

01 语法

基本语法如下，pd为导入Pandas模块的别名：

pd.read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]],
            sep=',', delimiter=None, header='infer', names=None, index_col=None,
            usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True,
            dtype=None, engine=None, converters=None, true_values=None,
            false_values=None, skipinitialspace=False, skiprows=None,
            skipfooter=0, nrows=None, na_values=None, keep_default_na=True,
            na_filter=True, verbose=False, skip_blank_lines=True,
            parse_dates=False, infer_datetime_format=False,
            keep_date_col=False, date_parser=None, dayfirst=False,
            cache_dates=True, iterator=False, chunksize=None,
            compression='infer', thousands=None, decimal: str = '.',
            lineterminator=None, quotechar='"', quoting=0,
            doublequote=True, escapechar=None, comment=None,
            encoding=None, dialect=None, error_bad_lines=True,
            warn_bad_lines=True, delim_whitespace=False,
            low_memory=True, memory_map=False, float_precision=None)

复制

一般情况下，会将读取到的数据返回一个DataFrame，当然按照参数的要求会返回指定的类型。

02 数据内容

filepath_or_buffer为第一个参数，没有默认值，也不能为空，根据Python的语法，第一个参数传参时可以不写参数名。可以传文件路径：

# 支持文件路径或者文件缓冲对象
# 本地相对路径
pd.read_csv('data/data.csv') # 注意目录层级
pd.read_csv('data.csv') # 如果文件与代码文件在同一目录下
pd.read_csv('data/my/my.data') # CSV文件的扩展名不一定是.csv
# 本地绝对路径
pd.read_csv('/user/gairuo/data/data.csv')
# 使用URL
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv')

复制

需要注意的是，Mac中和Windows中路径的写法不一样，上例是Mac中的写法，Windows中的相对路径和绝对路径需要分别换成类似'data\data.csv'和'E: \data\data.csv'的形式。另外，路径尽量不要使用中文，否则程序容易报错，这意味着你存放数据文件的目录要尽量用英文命名。

可以传数据字符串，即CSV中的数据字符以字符串形式直接传入：

from io import StringIO
data = ('col1,col2,col3\n'
        'a,b,1\n'
        'a,b,2\n'
        'c,d,3')

pd.read_csv(StringIO(data))
pd.read_csv(StringIO(data), dtype=object)

复制

也可以传入字节数据：

from io import BytesIO
data = (b'word,length\n'
        b'Tr\xc3\xa4umen,7\n'
        b'Gr\xc3\xbc\xc3\x9fe,5')

pd.read_csv(BytesIO(data))

复制

03 分隔符

sep参数是字符型的，代表每行数据内容的分隔符号，默认是逗号，另外常见的还有制表符（\t）、空格等，根据数据的实际情况传值。

# 数据分隔符默认是逗号，可以指定为其他符号
pd.read_csv(data, sep='\t') # 制表符分隔tab
pd.read_table(data) # read_table 默认是制表符分隔tab
pd.read_csv(data, sep='|') # 制表符分隔tab
pd.read_csv(data,sep="(?<!a)\|(?!1)", engine='python') # 使用正则表达式

复制

pd.read_csv还提供了一个参数名为delimiter的定界符，这是一个备选分隔符，是sep的别名，效果和sep一样。如果指定该参数，则sep参数失效。

最低0.47元/天解锁文章

0x8g1T9E

关注

17
点赞
踩
130

收藏

觉得还不错? 一键收藏
0
评论
史上最全！用Pandas读取CSV，看这篇就够了

例如，如果comment ='＃'，则解析header=0的'#empty \ na，b，c \ n1,2,3'会将'a，b，c'视为header。如果为某些或所有列启用了parse_dates，并且datetime字符串的格式都相同，则通过设置infer_datetime_format=True，可以大大提高解析速度，pandas将尝试推断datetime字符串的格式，然后使用更快的方法解析字符串，从而将解析速度提高5～10倍。names用来指定列的名称，它是一个类似列表的序列，与数据一一对应。...
复制链接

扫一扫

专栏目录