从字符编码到python的字符串与bytes

1 篇文章 0 订阅
1 篇文章 0 订阅

最近编写自己的rpc小框架,涉及到bytes.这里就想梳理一下编码与python的字符串和字节码(bytes)类型.

 

先上个图,有个印象,随时可以回头看.

 

# 前置知识

字符:在计算机和电信技术中,一个字符是一个单位的字形、类字形单位或符号的基本信息。即一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号等;

字符集:多个字符的集合。例如GB2312是中国国家标准的简体中文字符集;

字符编码:将某个字符集中的字符转换成一个唯一编号(码点,二进制数据).于是同时,我们也可以根据字符编号找到对应字符集中的唯一字符。(专业点的比喻就是映射);
 

UTF编码方案:

Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据.

Unicode解决了字符和二进制的对应关系,但是使用unicode表示一个英文字符,太浪费空间。例如:利用unicode表示“Python”需要12个字节才能表示,比原来ASCII表示增加了1倍。

为了解决存储和网络传输的问题,出现了Unicode Transformation Format,学术名UTF,即:对unicode中的格式进行转换,以便于在存储和网络传输时可以节省空间.

同时为了传输时的可靠性,从UNICODE到UTF时并不是直接的对应,而是要过一些算法和规则来转换。

总结:UTF 是为unicode编码 设计 的一种 在存储 和传输时节省空间的一系列编码方案。

UCS:

对于Unicode来说,UCS是内码是唯一编号,而UTF-8则是它的实现方式。

从字符经过字符集得到唯一编号的这个过程.就是USC.

UCS只是规定如何编码,并没有规定如何传输、保存这个编码。UCS-2是2个字节保存内码,UCS-4是4个字节保存内码.

例如“汉”字的UCS编码是6C49,我可以用4个ascii数字来传输、保存这个编码;也可以用utf-8编码:3个连续的字节E6 B1 89来表示它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的方案。UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF是“UCS Transformation Format”的缩写。

 

位(bit):数据存储的最小单位。每个二进制数字0或者1就是1个位;      0或1

字节(byte):8个位构成一个字节;即:1 byte (字节)= 8 bit(位);       0000,0000~1111,1111

python中的序列操作: 索引,切片,长度, 组合(序列相加)、重复(乘法),检查成员,遍历(迭代),最小值和最大值。

 

# Unicode 是啥

根据前置知识,我们可以猜到.ASCII,Unicode 指的是 字符集+字符编码的组合.

ASCII字符集:128个 常用英文字符+常用符号

ASCII码 : 一个字节    python中: 2个16进制表示此2进制数据 '\xc4\x80'    

Unicode字符集: 万国码,所有国家的字符.

Unicode码 : 两个字节    python中: 4个16进制表示此2进制数据 '\u7fd4'    

汉字‘严’的 Unicode 是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说,这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。

 

# python3中的字符串

字符串是 Python 中最常用的数据类型。我们可以使用引号( ' 或 " )来创建字符串。

python3 字符串是一个 Unicode码点(内码)组成的不可变序列,支持通用序列操作。可以看作是一个都是数字的元组.这个数字可以在Unicode字符集里找到对应的字符.

Python2中,普通字符串是以1字节ASCII码进行存储的,而Unicode字符串则存储为2字节unicode字符串,这样能够表示更多的字符集。使用的语法是在字符串前面加上前缀 u。

 

# UTF-8 又是啥?

字符通过unicode编码转成了一个二进制编号数字, 哪怕英文字符也需要2个字节.

而原本ASCII编码英文字符只需要一个字节.老美老欧不爽了,他们不用,unicode就没法全球化.

这导致出现了 Unicode 的多种面向传输的二进制格式照顾老美老欧的情绪:

UTF-8(可变编码格式,最为重要),UTF-16,UTF-32编码.

 

UTF-8:被定义为将代码点编码为1至4个字节(其中英文只耗费1个字节,中文3字节),兼容ASCII

UTF-8具体的表现形式为:

  • 0xxxxxxx:单字节编码形式,这和 ASCII 编码完全一样,因此 UTF-8 是兼容 ASCII 的;
  • 110xxxxx 10xxxxxx:双字节编码形式;
  • 1110xxxx 10xxxxxx 10xxxxxx:三字节编码形式;
  • 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx:四字节编码形式。

UTF-16:2个字节

UTF-32:4个字节

注:值得说明的是,虽然utf编码对汉字使用3个字节,但即使对于汉字网页,utf-8编码也会比unicode编码节省,因为网页中包 含了很多的英文字符。

 

# python3中的bytes

bytes对象是一个 0 <= x < 256 区间内的整数(一个字节)不可变序列。

 

# python3 字符串与bytes的区别

可能有人好奇,字符不特么也是二进制吗,不也是占字节么,python中字符串和bytes连操作都差不多,计算机万物皆二进制啊.都在扯鸡毛蛋呢,把人绕晕了不是.

字符串以,字符为单位进行操作.

bytes由多个字节组成,以字节为单位进行操作。

 

网络传输中在socket这里.是一个字节一个字节读的.可能读2个字节才是一个字符.

bytes是面向传输的python对象

上面前置知识有一句:为了传输时的可靠性. 可能内码不方便传输?(待续..容我想想.....)

 

# python3 字符串与bytes的转换

字符串编码转成bytes

b = a.encode(encoding='utf-8') # bytes

bytes解码成字符串

c = b.decode(encoding='utf-8') # str

# 这里可以看出一个汉字 用utf-8编码是3字节
a = '哈哈'.encode('utf-8')
print(a)    # 打印 b'\xe5\x93\x88\xe5\x93\x88'
b = b'\xe5\x93\x88\xe5\x93\x88'.decode('utf-8')
print(b)    # 打印 哈哈

 

这里再讲一下GBK,为什么GBK看起来能直接编码呢,它的字符集难道也是UNICODE?

UNICODE 在制订时没有考虑与任何一种现有的编码方案保持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的,没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换,这种转换必须通过查表来进行。

如果说unicode编码成UTF-8是算过去的,unicode编码成GBK就是一个个找过去的.

unicode码点〉unicode字符集 〉字符〉GB2312字符集〉GBK码点

str = "川普牛掰"
str_utf8 = str.encode("UTF-8")
str_gbk = str.encode("GBK")

print(str)
print("UTF-8 编码:", str_utf8)
print("GBK 编码:", str_gbk)
print("UTF-8 解码:", str_utf8.decode('UTF-8', 'strict'))
print("GBK 解码:", str_gbk.decode('GBK', 'strict'))

》〉》打印〉》〉》

川普牛逼
UTF-8 编码: b'\xe5\xb7\x9d\xe6\x99\xae\xe7\x89\x9b\xe9\x80\xbc'
GBK 编码: b'\xb4\xa8\xc6\xd5\xc5\xa3\xb1\xc6'
UTF-8 解码: 川普牛逼
GBK 解码: 川普牛逼

》〉》〉》〉》

 

 

 

未完待续,我再想想...

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值