中文字符乱码问题简单解决 python

使用python2处理中文文本的时候,由于编码的问题,会出现乱码。
原因就是,python内部使用unicode进行字符的处理,但我们输入进去的字符编码可能是各式各样的。
因此需提前对输入文本进行decode操作。但是decode需要指定解码的类型比如,gbk,gb2312等,需要对文本进行判断。python中有内置模块可以查看chardet

import chardet

text = open(fileName,'r').read()

print chardet.detect(text)

然后根据查询的结果进行解码。
但遇到的问题就是,查询的结果是gb2312,但是解码还是出错。
这时我们要清楚一个问题,字符集的大小问题


GB2312,GBK,GB18030,是兼容的,包含的字符个数,以此更多,可以写成:

GB2312 < GBK < GB18030

这样,python中再遇到中文乱码问题时,可以通过字符集的大小进行实验。即:

1、设置gb2312为解码方式,如果解码失败;
    text = text.decode('gb2312')
2、设置gbk为解码方式,如果解码失败;
    text = text.decode('gbk')
3、设置gb18030为解码方式,如果失败;
        text = text.decode('gb18030')
4、此方法无效,请google其他方法。

注意

在最后写入文件时,一定要用encode进行编码操作。
text = text.encode('utf8')
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值