写bug的日常——pandas导入csv文件的编码问题（UnicodeDecodeError:）

YLL的LLY

于 2021-04-03 23:01:56 发布

阅读量2.3k

点赞数 2

分类专栏：日常报错分析文章标签： python csv

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37383582/article/details/115422308

版权

日常报错分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

通常，在利用python做数据分析时，pandas库的

pd.read_csv('XXX.csv')

是个很好用的导入csv文件的工具。
但是，今天在导入一份csv文件时却出现了UnicodeDecodeError:'utf-8' codec can't decode byte 0xb7 in position 0: invalid start byte
根据之前的经验，一般需要加上encoding的格式，然而加上encoding='utf-8’后依然报错，错误同上。

data = pd.read_csv('XXX.csv',encoding='utf-8')

考虑到文件中有不少汉字，于是尝试改为gbk编码格式：

data = pd.read_csv('XXX.csv',encoding='gbk')

依然报错，错误如下：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xaa in position 128912: illegal multibyte sequence

最后，将encoding改为’gb18030’即可正常读取。

data = pd.read_csv('XXX.csv',encoding='gb18030')

原因在于这份csv文件中有不少是汉字，所以在编码时可能会出现问题，常见的编码主要有：

1.ASCII码与扩展的ASCII码。
2.Unicode编码：UTF-8就是Unicode字符的实现方式之一。
3.GBK/GB2312/GB18030：针对汉字的编码，如果csv文件中汉字较多，可能就需要这几中编码格式。如果不需要了解背后的原理的话，可以在实际使用中多尝试几次。

具体的编码原理与分类可以通过其他大佬的博客学习~

注意：如果导入使用了GB18030编码格式，那么在导出DataFrame到csv文件时，可能会出现乱码，可以指定导出的编码格式为 utf-8-sig，例如：

data.to_csv('test.csv', encoding = 'utf-8-sig', index = False)

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
写bug的日常——pandas导入csv文件的编码问题（UnicodeDecodeError:）

通常，在利用python做数据分析时，pandas库的pd.read_csv('XXX.csv')是个很好用的导入csv文件的工具。但是，今天在导入一份csv文件时却出现了UnicodeDecodeError:'utf-8' codec can't decode byte 0xb7 in position 0: invalid start byte根据之前的经验，一般需要加上encoding的格式，然而加上encoding='utf-8’后依然报错，错误同上。data = pd.read_csv
复制链接

扫一扫

专栏目录

YLL的LLY CSDN认证博客专家 CSDN认证企业博客

码龄7年

4: 原创

28万+: 周排名

74万+: 总排名

4万+: 访问

: 等级

279: 积分

3: 粉丝

24: 获赞

6: 评论

96: 收藏

私信

关注

热门文章

分类专栏

最新评论

写bug的日常——KeyError错误原因
一只猿色: 救星啊！
Cplex安装与环境配置步骤（C++与Python）
乐多456: 您好，请问这样python调用cplex是社区版本嘛？不能求解大型问题
写bug的日常——pandas导入csv文件的编码问题（UnicodeDecodeError:）
LaoYuanPython: 欢迎博主加入CSDN！欢迎博主到本人的Python专栏来交流！
写bug的日常——KeyError错误原因
YLL的LLY: Thank you very much！ Bty，I also have a question，why are there empty space in the column names and how to avoid it？ Thank you again！
写bug的日常——KeyError错误原因
Mr.小逸: # Or, you can remove the empty space from the column names. df = pd.DataFrame(Data) # remove special character df.columns = df.columns.str.replace(' ', '') # print file after removing special character print("\n\n", df) Source: https://www.geeksforgeeks.org/remove-spaces-from-column-names-in-pandas/

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。