python 3.x 字符串

采用Python3.4版本
在python3.x版本中python采用unicode作为字符串的默认编码, 也就是我们常说的str类型.
这里要搞清楚一个概念, 字符是一个抽象的概念, 并不是具体到某种编码, 同一个字符在不同编码中会有不同的表现形式

>>> s.encode('gbk')
b'\xd6\xd0\xce\xc4'
>>> s.encode('utf-16')
b'\xff\xfe-N\x87e'
>>> s.encode('unicode-escape')
b'\\u4e2d\\u6587'
>>> s.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'

所以, str对应unicode编码, bytes是一种具体实现的编码字节序列.
str和bytes都具有基本相同的方法(encode/decode除外).
也就是:
str.encode(‘gbk’) -> 把str(unicode)转换成根据gbk编码的字节序列
bytes.decode(‘gbk’) -> 把根据gbk编码的gbk字节序列转换成str(unicode)

>>> s = '中文'
>>> s.encode()
b'\xe4\xb8\xad\xe6\x96\x87'
>>> 

从utf-8到unicode转换过程如下:
\xe4\xb8\xad
1110 0100 1011 1000 1010 1101
\xe6\x96\x87
1110 0110 1001 0110 1000 0111

1110 <0100> 10<11 1000> 10<10 1101>
1110 <0110> 10<01 0110>10<00 0111>

0100 1110 0010 1101 -> 0x4e0x2d -> \u4e2d
0110 0101 1000 0111 -> 0x650x87 -> \u6587

>>> '\u4e2d\u6587'
'中文'

待续

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值