python-bytestring与unicodestring

1.关于编码的知识:

(1)ascii码--》一个字节

(2)gb2312--》两个字节  //国标2312

(3 )IOS-8859(Latin)--》一个字节 //覆盖西欧语言,包括ascii 码内容

(4)UTF-8--》1~4个字节   //可变长编码,单字节兼容ascii码,双字节覆盖西欧语言,三字节中日韩。

   windows的cmd下编码为cp936即GBK2312的扩展编码。

2.python中的字符串为字节串(byte string)

>>>byte_str='python巨蟒'

>>>unicode_str=byte_str.decode('cp936')   //将byte string进行解码,解码为cp936

>>>unicode_str

u'python\u5de8\u87d2'     //u代表unicode编码,由于是 cp936,一个字符占两个字节-16位。

>>>len(unicodestr)         //len()返回字符个数。

8

//可以对unicode string进行不同的unicode编码方式变为为不同的  byte string

>>>unicdoe_str.encode('utf-8')   //

'python\xe5\xb7\xa8\xe8\x9f\x92'    //一个字符1三个字节,\x->16进制。

3.总结:

byte string -> unicode

(1)byte_str.decode('编码规则');

(2)unicode(byte_str,'编码规则');

unicode->byte string

(2)unicode_str.encode('编码规则');


来源:http://yimi128.iteye.com/blog/568580

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值