原始数据:
通过pandas.read_csv处理完导出的数据
原因:
刚开始我也是苦思冥想却不得其法,不知道为啥好好的数据使用pandas读取后就变得不规整了,从网上搜索得知CSV(Comma-Separated Values),CSV文件默认用英文逗号作为列分隔符,通过将title中的数据取出来发现里面存在多个逗号,于是在写入另一个csv中时,title原来为一个字段的内容被分割成了多个字段,进而导致了上面的问题,现在找到了问题,如何解决呢?
解决方法:通过写代码将逗号替换为其他字符,如空格,句号等字符
举例:
import csv
dirs = "F:\\data\\data.csv"
with open(dirs, 'r', encoding='utf-8') as f:
for index, line in enumerate(f): # 想要同时读取数据及其索引使用enumerate()方法
if index == 0:
field = [['doi', 'type', 'isbn', 'container_isbn',
'author_n&