解决pandas读取csv、tsv文件出现错误《ParserError: Error tokenizing data. C error: Expected 1 fields in line...》

最新推荐文章于 2024-08-18 11:34:15 发布

Gaolw1102

最新推荐文章于 2024-08-18 11:34:15 发布

阅读量1.7w

点赞数 13

分类专栏： pandas 文章标签： pandas python 开发语言

本文链接：https://blog.csdn.net/weixin_43479947/article/details/129586070

版权

pandas 专栏收录该内容

1 篇文章 2 订阅

订阅专栏

当使用pandas的read_csv函数读取TSV文件时，由于默认分隔符不匹配引发ParserError。通过设置sep参数为解决了问题。read_csv函数还支持多种参数，如header、names、dtype等，用于定制数据读取行为。

摘要由CSDN通过智能技术生成

读取文件方式改为

import pandas as pd
pd_data = pd.read_csv('./files.tsv')

出错，ParserError: Error tokenizing data. C error: Expected 1 fields in line…
将读取方式改为

documents = pd.read_csv('./files.tsv', sep='\t', header=0)

OK，问题解决！

read_csv()是Pandas库中用于读取CSV文件的函数，其常用参数如下：

filepath_or_buffer---->CSV文件的路径或URL地址。
sep---->CSV文件中字段分隔符，默认为逗号。
delimiter---->CSV文件中字段分隔符，默认为None。
header---->指定哪一行作为列名，默认为0，即第一行。
names---->自定义列名，如果header=None，则可以使用该参数。
index_col---->用作行索引的列编号或列名。
usecols---->读取指定的列，可以是列名或列编号。
dtype---->指定每列的数据类型，可以是字典或者函数。
na_values---->用于替换缺失值的值。
skiprows---->跳过指定的行数。
skipfooter---->跳过文件末尾的指定行数。
nrows---->读取指定的行数。
parse_dates---->指定哪些列需要转换为日期类型。
infer_datetime_format---->尝试解析日期时间格式（提高效率）。
dayfirst---->将日期解析为“日-月-年”而不是“月-日-年”的格式。
encoding---->CSV文件的编码方式，默认为None，使用系统默认编码。
squeeze---->如果文件只包含一列，则返回Series对象而不是DataFrame对象。
thousands---->千位分隔符。
decimal---->小数点分隔符。