Python2.x中字符串编码和解码

Python2.x 中,没有字节的概念(Python3中出新了bytes),只有两种字符串:表示 strunicode 。使用引号定义字符串时,默认定义成一个str字符串。加前缀u表示这是一个Unicode字符串。

 

可以把 str 的单位看做一个字节,把 unicode 的单位看作一个字符。在交互命令界面下

 

>>> t = '你好'
>>> t
'\xc4\xe3\xba\xc3'
>>> t[0]
'\xc4'
>>> print t[0]

>>> t = u'你好'
>>> t
u'\u4f60\u597d'
>>> t[0]
u'\u4f60'
>>> print t[0]
你
>>>

 所以处理中文时最好使用Unicode字符串,可以对每个汉字进行处理。

 

还要注意,上面把'你好'作为str表示时,它的值是

'\xc4\xe3\xba\xc3'

这其实是汉字你好的gb编码,因为我用的windows xp系统的默认编码是gbk,所以在控制台里输入的汉字也是gbk编码的。

 

Python提供了encode()和decode()这两个方法供我们进行编码转换。由于Python内部是Unicode表示的,所以这两个方法都和Unicode有关。

 

s.decode()是把str字符串s解码成Unicode字符串,注意如果s不是str字符串(那么它就是Unicode字符串),调用这个方法可能 会出错。使用这个函数,你要指定s的编码方式,比如我要把上面的’你好‘转换成Unicode编码,需要这样

>>> '你好'.decode('gbk')
u'\u4f60\u597d'
>>>

 结果返回一个Unicode表示的’你好‘

s.encode()把Unicode字符串编码成另外一种编码的ascii字符串。s这时候必须是一个Unicode字符串,否则可能 出错。

>>> u'你好'.encode('gbk')
'\xc4\xe3\xba\xc3'
>>>

 结果返回一个str字符串表示的’你好‘。

利用encode和decode就可以实现任意编码之间转换。

 

代码文件中的字符串默认是和代码文件本身的编码一致。文件test.py,编码为gbk

#-*-coding:gbk-*-
t = '你好'
x = u'你好'

 那么t的编码是gbk,而x的编码是Unicode,x的编码与文件编码无关。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值