python open gbk_python3 open txt的UnicodeDecodeError: 'gbk' codec问题解决方案

最新推荐文章于 2024-03-30 21:14:27 发布

weixin_39908462

最新推荐文章于 2024-03-30 21:14:27 发布

阅读量396

点赞数

文章标签： python open gbk

python3 open txt的UnicodeDecodeError: 'gbk' codec问题解决方案

先直截了当给出解决方案，在程序开头加上：

import _locale

_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])

12

分析

在Windows下经常用python open函数的人相信都遇到过UnicodeDecodeError: ‘gbk’ codec…这种编码问题。而且很多有经验的人应该知道解决方法是加上参数encoding=“utf-8”，因为"utf-8"是更通用的编码：

open("test.txt",encoding="utf-8")

然而这样的解决方法也有一些问题：

有多个open的情况下，必须手动一个个添加参数，很麻烦

更致命的是，当引用的第三方库中的open没有加上这个参数时，我们就几乎完全束手无策了(勇士可以尝试修改源码再重装)

我正是因为碰到了第二种情况，于是下定决心找一个一劳永逸的方法解决问题，这就要对原理做一些深入探究。

Python 和 encoding 相关的配置主要有下面几个：

locale.getpreferredencoding() 这个用的是最广的。这是 Python 在 open 文件时默认使用的 encoding

sys.getdefaultencoding() 是 Python 进行 str/unicode(byte/str) 转换时默认使用的 encoding

sys.getfilesystemencoding() 是用来 encoding 文件名的，例如 open(b’balabala’)

标准输入输出(print)的 encoding:

4.1 若设置了 PYTHONIOENCODING 环境变量, 则以次变量为准

4.2 标准输入输出是打到终端的话，看终端的 locale 配置，在 windows cmd 的代码页

4.3 标准输入输出被重定向到文件的话，则参照 1 ，用的是 ` locale.getpreferredencoding()

----出自：http://neue.v2ex.com/t/271999

所以我们的目标是要修改环境配置，python解释器会取_getdefaultlocale()[1]作为默认编码类型。

所以我们采用：

import _locale

_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])

12

重写函数后，会改变当前运行环境下的所有模块的默认编码。

感谢在 https://juejin.im/post/5bd2b6d5e51d45735c3c0453 找到的解决方案

—————————

尝试用Python写一个Wordcloud的时候，出现了编码问题。

照着网上某些博客的说法添添改改后，结果是变成了“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte…”这个错误。

捣鼓了一天啊，TXT(此处为本人现下内心表情)。最后，干脆写个最简单的文件读取，竟然还是报错。于是就考虑是不是txt的编码问题，因为读取的txt文件是在Mac上面新建的纯文本文件，一时没找到在哪里查看编码，最后拷贝到Windows系统上，查看了txt文件的编码，竟然是ASCII，不是我最爱的utf-8，Mac你辜负了我对你的一番信任啊！ε(┬┬﹏┬┬)3

解决方法

将txt文件的编码格式改为utf-8即可

此外，在打开文件的时候，要加上第三个参数encoding=‘utf8’(没有横杠)。

with open('./test3.txt','r',encoding='utf8') as fin:

for line in fin.readlines():

line = line.strip('\n')

123

下面附上第一次成功显示的词云的源码(参考网上他人的，注释很详细)

import jieba

import jieba.analyse

from matplotlib import pyplot as plt

from scipy.misc import imread

from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator

# 1.读取数据

with open("./test.txt","r",encoding="utf8") as f:

text = f.read()

# 2.基于 TextRank 算法的关键词抽取,top50

keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

file = ",".join(keywords)

# 指定中文字体，不然中文显示框框

font = r'./HYQiHei-25J.ttf'

print(file)

# 指定背景图,随意

image = imread('cake.jpg')

wc = WordCloud(

font_path=font,

background_color='white',#背景色

mask=image,#背景图

stopwords=STOPWORDS,#设置停用词

max_words=100,#设置最大文字数

max_font_size=100,#设置最大字体

width=800,

height=1000,

)

#生成词云

image_colors = ImageColorGenerator(image)

wc.generate(file)

# 使用matplotlib,显示词云图

plt.imshow(wc) #显示词云图

plt.axis('off') #关闭坐标轴

plt.show()

# 保存图片

wc.to_file('news.png')

———————

weixin_39908462

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python open gbk_python3 open txt的UnicodeDecodeError: 'gbk' codec问题解决方案

python3 open txt的UnicodeDecodeError: 'gbk' codec问题解决方案先直截了当给出解决方案，在程序开头加上：import _locale_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])12分析在Windows下经常用python open函数的人相信都遇到过UnicodeDecodeE...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。