Python2.x中字符串编码和解码

最新推荐文章于 2019-06-13 15:39:08 发布

jiangtaigong

最新推荐文章于 2019-06-13 15:39:08 发布

阅读量102

点赞数

分类专栏： python 文章标签： Python XP Windows

7 篇文章 0 订阅

订阅专栏

Python2.x 中，没有字节的概念(Python3中出新了bytes)，只有两种字符串：表示 str 和 unicode 。使用引号定义字符串时，默认定义成一个str字符串。加前缀u表示这是一个Unicode字符串。

可以把 str 的单位看做一个字节，把 unicode 的单位看作一个字符。在交互命令界面下

>>> t = '你好'
>>> t
'\xc4\xe3\xba\xc3'
>>> t[0]
'\xc4'
>>> print t[0]

>>> t = u'你好'
>>> t
u'\u4f60\u597d'
>>> t[0]
u'\u4f60'
>>> print t[0]
你
>>>

所以处理中文时最好使用Unicode字符串，可以对每个汉字进行处理。

还要注意，上面把'你好'作为str表示时，它的值是

'\xc4\xe3\xba\xc3'

这其实是汉字你好的gb编码，因为我用的windows xp系统的默认编码是gbk，所以在控制台里输入的汉字也是gbk编码的。

Python提供了encode()和decode()这两个方法供我们进行编码转换。由于Python内部是Unicode表示的，所以这两个方法都和Unicode有关。

s.decode()是把str字符串s解码成Unicode字符串，注意如果s不是str字符串(那么它就是Unicode字符串)，调用这个方法可能会出错。使用这个函数，你要指定s的编码方式，比如我要把上面的’你好‘转换成Unicode编码，需要这样

>>> '你好'.decode('gbk')
u'\u4f60\u597d'
>>>

结果返回一个Unicode表示的’你好‘

s.encode()把Unicode字符串编码成另外一种编码的ascii字符串。s这时候必须是一个Unicode字符串，否则可能出错。

>>> u'你好'.encode('gbk')
'\xc4\xe3\xba\xc3'
>>>

结果返回一个str字符串表示的’你好‘。

利用encode和decode就可以实现任意编码之间转换。

代码文件中的字符串默认是和代码文件本身的编码一致。文件test.py，编码为gbk

#-*-coding:gbk-*-
t = '你好'
x = u'你好'

那么t的编码是gbk，而x的编码是Unicode，x的编码与文件编码无关。

关注