python怎么读取中文文件-Python3 解决读取中文文件txt编码的问题

最新推荐文章于 2021-03-01 21:06:27 发布

编程大乐趣

最新推荐文章于 2021-03-01 21:06:27 发布

阅读量1.4k

点赞数 1

问题描述

尝试用Python写一个Wordcloud的时候，出现了编码问题。

照着网上某些博客的说法添添改改后，结果是变成了"UnicodeDecodeError: "utf-8' codec can't decode byte…”这个错误。

捣鼓了一天啊，TXT（此处为本人现下内心表情）。最后，干脆写个最简单的文件读取，竟然还是报错。于是就考虑是不是txt的编码问题，因为读取的txt文件是在Mac上面新建的纯文本文件，一时没找到在哪里查看编码，最后拷贝到Windows系统上，查看了txt文件的编码，竟然是ASCII，不是我最爱的utf-8，Mac你辜负了我对你的一番信任啊！ε(┬┬﹏┬┬)3

解决方法

将txt文件的编码格式改为utf-8即可

此外，在打开文件的时候，要加上第三个参数encoding="utf8'(没有横杠)。

with open('./test3.txt','r',encoding='utf8') as fin:

for line in fin.readlines():

line = line.strip(' ')

下面附上第一次成功显示的词云的源码（参考网上他人的，注释很详细）

import jieba

import jieba.analyse

from matplotlib import pyplot as plt

from scipy.misc import imread

from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator

# 1.读取数据

with open("./test.txt","r",encoding="utf8") as f:

text = f.read()

# 2.基于 TextRank 算法的关键词抽取,top50

keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

file = ",".join(keywords)

# 指定中文字体，不然中文显示框框

font = r'./HYQiHei-25J.ttf'

print(file)

# 指定背景图,随意

image = imread('cake.jpg')

wc = WordCloud(

font_path=font,

background_color='white',#背景色

mask=image,#背景图

stopwords=STOPWORDS,#设置停用词

max_words=100,#设置最大文字数

max_font_size=100,#设置最大字体

width=800,

height=1000,

)

#生成词云

image_colors = ImageColorGenerator(image)

wc.generate(file)

# 使用matplotlib,显示词云图

plt.imshow(wc) #显示词云图

plt.axis('off') #关闭坐标轴

plt.show()

# 保存图片

wc.to_file('news.png')

以上这篇Python3 解决读取中文文件txt编码的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

本文标题: Python3 解决读取中文文件txt编码的问题

本文地址: http://www.cppcns.com/jiaoben/python/294349.html

编程大乐趣

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python怎么读取中文文件-Python3 解决读取中文文件txt编码的问题

问题描述尝试用Python写一个Wordcloud的时候，出现了编码问题。照着网上某些博客的说法添添改改后，结果是变成了"UnicodeDecodeError: "utf-8' codec can't decode byte…”这个错误。捣鼓了一天啊，TXT（此处为本人现下内心表情）。最后，干脆写个最简单的文件读取，竟然还是报错。于是就考虑是不是txt的编码问题，因为读取的tx...
复制链接

扫一扫

编程大乐趣 CSDN认证博客专家 CSDN认证企业博客

码龄12年

24: 原创

3万+: 周排名

108万+: 总排名

568万+: 访问

: 等级

1万+: 积分

2079: 粉丝

1758: 获赞

7: 评论

1万+: 收藏

私信

关注

热门文章

最新评论

用python怎样做学生管理系统用类的形式-Python配置管理的几种方式
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客内容丰富，介绍了用python实现学生管理系统用类的形式和Python配置管理的几种方式。我觉得可以继续深入探讨Python配置管理的相关知识，比如如何使用配置文件、环境变量等方式来管理应用程序的配置信息。这样的技术文章对其他用户也会非常有帮助。下一篇博客建议可以写关于Python配置管理的具体实现方法和技巧，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
15个PHP关于高并发的面试题（总结）
后端木木: 开刷撒
11个程序员最常犯的MySQL错误（PHP开发）
向彪-blockchain: 博主写的非常清晰，对我很有帮助，谢谢，方便可以互相关注。共同学习~方便的话可以加个关注。共同学习！一起进步！
2020年最新的PHP面试题（附答案）
向彪-blockchain: 写的挺不错的，继续加油哦！方便的话可以加个关注。共同学习！一起进步！
2020年，为什么你该学PHP？！！
向彪-blockchain: 比较简单，适合小白。方便的话可以加个关注。共同学习！一起进步！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。