多个csv文件合并

最新推荐文章于 2024-03-03 12:27:53 发布

奋斗的妹子

最新推荐文章于 2024-03-03 12:27:53 发布

阅读量518

点赞数

分类专栏：数据处理 pandas 小技巧

本文链接：https://blog.csdn.net/qq_36407774/article/details/119645137

版权

小技巧同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

pandas

5 篇文章 0 订阅

订阅专栏

数据处理

4 篇文章 0 订阅

订阅专栏

读取数据出错

pd.read_csv(filepath)时报错:

pandas.errors.ParserError: Error tokenizing data. C error: Expected 11 fields in line 5, saw 12
翻译：5行应有11列而实际上读到12列,就会报错，

解决办法

方法一：如果不在乎数据量缺失，可加参数 error_bad_lines=False ，但样本会减少一部分（bad_lines），及读到12列的数据会丢失。
方法二：强行设定数据列名，即加参数names。
本次数据较为重要，不能缺失任何数据，故使用方法二，详情见如下代码（注意：此处encoding=‘gb18030’，主要原因在于使用utf-8及gbk都是乱码，而使用gb18030时数据不会乱码）

import glob
import pandas as pd
# 加载数据
filePaths = glob.glob(r'D:\xxma\欧亚国际\欧亚\*.csv') # 读取文件夹下的csv文件
content = []
for file in filePaths:
    df = pd.read_csv(file,sep=',',encoding='gb18030',index_col=False,names=['会员账号','姓名','所属代理','4','5','6','7','8','9','10','11','12',])
    content.append(df.iloc[:,0:3]) #只取前3列
    
# 报错结果数据，所有表格合为一个表格
writer = pd.ExcelWriter(r'D:\xxma\欧亚国际\所有数据.xlsx')
pd.concat(content).drop_duplicates().to_excel(writer,'sheet1',index=False,encoding='gb18030')
writer.save()

奋斗的妹子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多个csv文件合并

读取数据出错pd.read_csv(filepath)时报错:pandas.errors.ParserError: Error tokenizing data. C error: Expected 11 fields in line 5, saw 12翻译：5行应有11列而实际上读到12列,就会报错，解决办法方法一：如果不在乎数据量缺失，可加参数 error_bad_lines=False ，但样本会减少一部分（bad_lines），及读到12列的数据会丢失。方法二：强行设定数据列名，即加参数n
复制链接

扫一扫