bug：pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at row 143

孤独打铁匠Julian

已于 2024-02-27 16:11:05 修改

阅读量1.8k

点赞数 7

分类专栏： Debug 文章标签： pandas python bug 笔记经验分享

于 2024-02-27 15:59:21 首次发布

本文链接：https://blog.csdn.net/qq_59629101/article/details/136324489

版权

Debug 专栏收录该内容

3 篇文章

订阅专栏

本文讲述了如何处理Pandas在读取CSV文件时遇到的ParserError，主要涉及检查文件中未闭合的引号和换行符，调整Pandas读取参数，以及使用try-except捕获异常。数据预处理和质量保证是关键，特别是在处理大型数据集时。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用Pandas库读取CSV文件报错。

这个错误信息pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at row 14342110指出了在尝试分割CSV文件时遇到了一个问题：在第14342110行开始的地方，Pandas遇到了一个未正确闭合的字符串，导致文件的解析出错。这通常发生在一个字段值中包含了换行符（\n）或引号（"）等特殊字符，但这个字段没有被正确地引用或闭合。

解决方案

检查和修复原始CSV文件：

打开原始CSV文件，定位到报错指出的行数附近（第14342110行），检查该行及其附近的数据。
查找任何未闭合的引号或不正确的换行符。
确保所有的字段值，特别是包含特殊字符（如逗号、换行符、引号等）的字段，都被正确地引用。例如，如果一个字段的值为John said, "Hello"，那么这个值应该被完整地包含在引号中，并且外部使用另一对引号引用，如"John said, ""Hello"""。

调整Pandas的读取参数：

如果手动修复文件不可行或不方便，可以尝试调整Pandas read_csv函数的参数来处理这种情况。例如，使用quoting和error_bad_lines参数：

chunk_iterator = pd.read_csv(file_path, chunksize=rows_per_file, quoting=csv.QUOTE_ALL, error_bad_lines=False)

源代码：使用Pandas分割大型CSV文件

quoting=csv.QUOTE_ALL会尝试将所有字段值视为被引用的，这有助于处理包含特殊字符的字段。
error_bad_lines=False会使Pandas在遇到问题行时跳过这些行，而不是抛出错误。请注意，这可能会导致丢失一些数据。

使用try-except捕获异常：

在你的代码中添加错误处理逻辑，以便在处理特定块时遇到错误不会导致整个程序停止：

try:
    for chunk in chunk_iterator:
        # 处理每个块的代码
except pandas.errors.ParserError as e:
    print(f"Error processing chunk: {e}")

注意事项

在处理大型数据集时，数据质量问题是常见的挑战。在实际应用中，可能需要在数据预处理阶段加入更多的数据清洗和验证步骤。
使用error_bad_lines=False可以在某些情况下作为快速解决方案，但最好还是检查和修复数据问题，以确保数据的完整性和准确性。