Python处理字符串 中文(汉字)编码示例

本文介绍了在Python开发中遇到的乱码问题,重点讨论了utf-8、gbk和unicode编码之间的转换。通过使用chardet库检测字符串编码,并利用decode和encode方法进行转码,解决中文乱码问题。此外,还提到了处理Unicode转码后出现的uxxxx表示法的方法。
摘要由CSDN通过智能技术生成

在实际开发中,发现打印Python打印经常出现乱码,大部分都是编码引起,这里只是简单说一下utf-8/ gbk/ unicode编码之间的相互转换问题:

utf-8是Unix下的一种通用编码,gbk是win环境下的一种汉字编码,unicode是一种二进制编码,所有的utf-8和gbk编码都得通过unicode编码进行转码如图:

 首先,我们可以查看自己的字符串是什么编码格式:

注意:在Python3 中,需要将strTest转换成二进制,再获取编码格式;而在2.x时,不需要转换,之接传入:print chardet.detect(strTest)

import chardet

strTest = "这是一个测试用例"
    
print(chardet.detect(str_test.encode()))

得到输出结果:

然后根据你的需要转码:如   xxx.decode('utf-8').encode('gbk')

python中有两个函数 decode() 和 encode()

decode(‘utf-8’) 是从utf-8编码转换成unicode编码,当然括号里也可以写'gbk'

encode('gbk') 是将unicode编码编译成gbk编码,当然括号里也可以写'utf-8'

str_to_gbk = str_test.encode('gbk')
print(chardet.detect(str_to_gbk))

另外,有些时候,我们输出打印时,会出现中文打印是 \uxxx 等,可以试试以下代码:

xxx.encode('utf-8').decode('unicode_escape')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值