python 报错"UnicodeDecodeError: 'utf-8' codec can't decode byte"的解决办法

最近写了一个Python小程序,用来统计《三国演义》中人物出场次数的。从网上下载一个”三国演义.txt”的文件,但是后来程序运行时出现以下报错:
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xa1 in position 0: invalid start byte
后来经过不断查找终于找到了解决办法。

由于我在程序中设定文件打开的编码格式为“utf-8”,但是我后来用电脑的记事本打开这个”三国演义.txt”文件,然后在点击另存为的时候,发现原文件的编码方式是“ANSI”. 哦哦哦哦哦哦哦哦哦哦哦。。。。不报错才怪呢!

解决办法很简单,只需要在另存为的时候,选择编码方式为:UTF-8即可,就像下面这样
这里写图片描述

下面附上代码以及代码运行结果:

import jieba
text=open('./三国演义1.txt',"r",encoding='utf-8').read()
words=jieba.lcut(text)
counts={}
for word in words:
   if len(word)==1:  #排除带个字符的分词效果
      continue
   else:
      counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):
   word,count=items[i]
   print("{0:<10}{1:>5}".format(word,count))

运行结果:
这里写图片描述

曹操果然是男一号!!!

小记:学习过程中会遇到各种问题,有的时候往往就是这样的小问题让你很不舒服。然而,越是这种小问题,越是应该搞清楚,不能似是而非,一知半解。学习之路漫漫,求共勉!

  • 169
    点赞
  • 210
    收藏
    觉得还不错? 一键收藏
  • 45
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 45
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值