python处理中文编码、解码的问题

用python处理中文的时候,总是会遇到各种错误,这里稍微整理一下:

1)python读写文档常用的一些语句

f=open('wenjian.txt','r').read() #把整个文件读进来作为整个字符串
f.decode() #把byte类型转换成string类型
f_w=open('replace.txt','wb') #新建一个文件,把需要写的内容写进去
f=f.encode('utf-8') #从string转换成bytes类型
f_w.write(f) #必须要是bytes类型才能写进去

2)可能出现的一些问题:

举例:“UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence”

解决方法:file = open(path, encoding='gbk')
若无法解决,则可能文本中出现的一些特殊符号超出了gbk的编码范围,可以选择编码范围更广的‘gb18030’:
file = open(path, encoding='gb18030')
若还无法解决,说明文中出现了连‘gb18030’也无法编码的字符,可以使用‘ignore’属性忽略非法字符:
file = open(path, encoding='gb18030', errors='ignore') 
或者  file=open(path).read().decode('gb18030','ignore')

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值