【Pytho】报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 2: illegal multiby终极解决方案

最新推荐文章于 2024-08-21 21:49:47 发布

J小白Y

最新推荐文章于 2024-08-21 21:49:47 发布

阅读量3k

点赞数 4

分类专栏：数据分析及算法 Python小白的进阶之路文章标签：自然语言处理

本文链接：https://blog.csdn.net/jarry_cm/article/details/104629666

版权

54 篇文章 19 订阅

订阅专栏

15 篇文章 5 订阅

订阅专栏

最近小白在做中文情感分析的时候，经常使用到文件打开出错的问题，尝试了很多方式，都不成功，这里写下自己的新路历程。

1.首先，下面是正常的读文件代码

sen_file = open('D:/Users/Downloads/BosonNLP_sentiment_score.txt','r')
sen_list = sen_file.readlines()

报错如下：

网上随便搜，有一堆答案，接下来看下各种解决办法

encoding改为UTF-8，有的小伙伴试到这一步，已经不需要继续了，问题完美解决

sen_file = open('D:/Users/Downloads/BosonNLP_sentiment_score.txt','r', encoding='UTF-8')
sen_list = sen_file.readlines()

有的依然会报上述问题，那么继续换编码方式：‘utf-8’换成‘gbk’

sen_file = open('D:/Users/Downloads/BosonNLP_sentiment_score.txt','r', encoding='gbk')
sen_list = sen_file.readlines()

若不能解决，可能是文本中出现的一些特殊符号超出了gbk的编码范围，可以选择编码范围更广的‘gb18030’

sen_file = open('D:/Users/Downloads/BosonNLP_sentiment_score.txt','r', encoding='gb18030')
sen_list = sen_file.readlines()

若仍不能解决，说明文中出现了连‘gb18030’也无法编码的字符，可以使用‘ignore’属性进行忽略，如：

但是这种方式只是规避了特殊字符，并没有完美解决

sen_file = open('D:/Users/Downloads/BosonNLP_sentiment_score.txt','r', encoding='gb18030',errors='ignore')
sen_list = sen_file.readlines()

将txt文件用Notepad++打开，然后换编码方式为UTF-8

然后，语句encoding设置为UTF-8就可以了

sen_file = open('D:/Users/Downloads/BosonNLP_sentiment_score.txt','r', encoding='UTF-8')
sen_list = sen_file.readlines()

关注

专栏目录