本来规整的csv数据通过pandas读取后变得不规整的原因以及如何解决(CSV文件中读取时数据分割问题)

最新推荐文章于 2024-07-28 20:14:19 发布

进击的小菜鸡dd

最新推荐文章于 2024-07-28 20:14:19 发布

阅读量2.7k

点赞数 3

本文链接：https://blog.csdn.net/gosline/article/details/88061018

版权

使用pandas读取CSV数据时遇到数据不规整问题，原因是字段内逗号导致列分隔错误。解决方法是通过代码替换逗号，例如用空格或句号。对于大量数据，可以设置`error_bad_lines=False`忽略错误行，保存索引后再单独处理。

摘要由CSDN通过智能技术生成

原始数据:

通过pandas.read_csv处理完导出的数据
使用pandas读入数据
原因：
刚开始我也是苦思冥想却不得其法，不知道为啥好好的数据使用pandas读取后就变得不规整了，从网上搜索得知CSV（Comma-Separated Values），CSV文件默认用英文逗号作为列分隔符，通过将title中的数据取出来发现里面存在多个逗号，于是在写入另一个csv中时，title原来为一个字段的内容被分割成了多个字段，进而导致了上面的问题，现在找到了问题，如何解决呢？
解决方法：通过写代码将逗号替换为其他字符，如空格，句号等字符
举例：

import csv
dirs = "F:\\data\\data.csv"
with open(dirs, 'r', encoding='utf-8') as f:
    for index, line in enumerate(f): # 想要同时读取数据及其索引使用enumerate()方法
        if index == 0:
            field = [['doi', 'type', 'isbn', 'container_isbn',
                      'author_n&