UnicodeDecodeError: 'gbk' codec can't decode byte 0xfe in position 575056: illegal multibyte sequenc

lines = open('西游记.txt').read()   # Windows 平台的默认编码是GBK

报错,已知文件编码是ANSI(GBK)

UnicodeDecodeError: 'gbk' codec can't decode byte 0xfe in position 575056: illegal multibyte sequence

意思是'gbk'编解码器无法解码位置为575056的字节0xfe:非法多字节序列。大概是说,在575056位置的字在gbk中没有,所以解码错误。

(GB2312过时标准、GBK微软标准、GB18030国家标准。GB18030收录的汉字最多)

lines = open('西游记.txt', encoding='GB18030').read() 

这样就没有错误,应该是GB18030包含了在575056位置的字。

如果还不行,应该就是出现了GB18030也无法编码的字符,可以加上 errors='ignore'来忽略非法字符

lines = open('西游记.txt', encoding='gb18030', errors='ignore').read()

注意:

r/w 模式,可以指定编码,也可以不指定,windows下默认是gbk编码。

rb/wb模式直接读取二进制,与编码没有关系,加上就报错。(rb/wb不能与encoding共存)

  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值