50行读懂Python编码

编码格式

  世界上的任意字符在计算机中,都是用一串二进制的数字来表示的,只不过同一个字符在不同的编码格式下,对应的数字不同,长度也不一样。

ASCII

  ASCII 是最早的编码规范,但是只能表示128个字符。

扩展ASCII码

  后来有了扩展ASCII码,扩展到了256个字符。

Unicode

  世界上的字符辣么多,256个就够了吗?Unicode 包含了世界上所有的字符。Unicode的所有字符长度都是定长的,16位,也就是说可以代表 65536 个字符,如下

   今    天    早    上    有    雾
\u4eca\u5929\u65e9\u4e0a\u6709\u96fe

  字符的 Unicode 码可以通过查找对照表获得,Unicode 是世界上通用的语言。但是它还是有它的局限性,因为有的字符可以用一个字节(8位)表示,但在 Unicode 中,必须是2个字节。

GBK

  GBK 是汉语的扩展库,用2个字节表示汉字,理解成汉语方言。

UTF-8

  UTF-8 用3个字节表示汉字。

Python 编码转换

encode

  将 Unicode 码转换成 byte string 的过程就叫做编码(encoding),encode()方法,会将 Unicode 字符串转换成 byte 类型的字符串,如下:

byteString = '强'.encode('utf-8')
print(byteString)

  输出结果如下。\x是代表16进制,2位16进制的数字相当于8位2进制数字,即一个字节,从下面的结果可以看出,汉字utf-8的编码格式下是用三个字节存储的。

b'\xe5\xbc\xba'

decode

  将 byte string 转换成 Unicode 码的过程叫做解码(decoding),decode()方法会将 byte 类型的字符串。

string = byteString.decode('utf-8')
print(string)

  输出结果如下。

  没有输出类似\u5f3a的 Unicode 码是因为使用print方法的时候控制台做了转换。实际上他们是等价的。可以将类似\u5f3a的 Unicode 码理解为编程语言的内码

print('强'=='\u5f3a') # 结果为True

转码

  例如把utf-8格式的字符串转换成gbk格式的字符串,就叫转码,要想转码就必须先将字符串解码成Unicode码,才能再重新编码。所有的 encode 都是在 Unicode 的基础上开始的。

# 前缀 b 表示 byte string,python3中字符串默认是 Unicode
# 如果不加前缀 b,会发现 Unicode 字符串是没有 decode 方法的
utf8_byte = b'\xe5\xbc\xba'
unicode_string = utf8_byte.decode('utf-8')
gbk_byte = unicode_string.encode('gbk')
print(gbk_byte)

  输出结果如下,可以看出在utf-8由3个字节表示的汉字,在gbk中是由2个字节表示的。

b'\xc7\xbf'
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值