python报错“UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte:invalid start byte“的解决方案

用python读取txt文件时,有时会报这样的错误。

import re
f = open('chapter1.txt','r')
txt = f.read()
f.close()
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 1996: invalid start byte

这是因为读取的txt没有用utf-8编码。
可以用两种解决方案。
有一种方案是将f = open(‘chapter1.txt’,‘r’)里面的r改成rb。
r是读取文件,rb是以二进制的形式进行读取。

import re
f = open('chapter1.txt','rb')
txt = f.read()
f.close()

这样就不会报错了。
但是如果要做进一步处理。比如用正则表达式去除小说里的标点符号。

import re
f = open('chapter1.txt','rb')
txt = f.read()
f.close()
txt = txt.lower()
txt = re.sub('[,.?:"\'!-]', '', txt)

又会报另一个错误。
TypeError: cannot use a string pattern on a bytes-like object

TypeError: cannot use a string pattern on a bytes-like object

我们可以把那个txt文件另存为的时候改成utf-8格式,这样就可以解决这个问题。当然读取改完之后,读取那里也要由rb改成r。

import re
f = open('chapter1.txt','r')
txt = f.read()
f.close()
txt = txt.lower()
txt = re.sub('[,.?:"\'!-]', '', txt)

这样就可以运行了。

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值