从字符编码到python的字符串与bytes

最新推荐文章于 2024-04-24 14:29:30 发布

晚橙

最新推荐文章于 2024-04-24 14:29:30 发布

阅读量465

点赞数

分类专栏： python 编码 utf-8

本文链接：https://blog.csdn.net/he93007/article/details/94597200

版权

python 同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

编码

1 篇文章 0 订阅

订阅专栏

utf-8

1 篇文章 0 订阅

订阅专栏

最近编写自己的rpc小框架,涉及到bytes.这里就想梳理一下编码与python的字符串和字节码(bytes)类型.

先上个图,有个印象,随时可以回头看.

# 前置知识

字符：在计算机和电信技术中，一个字符是一个单位的字形、类字形单位或符号的基本信息。即一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号等;

字符集：多个字符的集合。例如GB2312是中国国家标准的简体中文字符集;

字符编码：将某个字符集中的字符转换成一个唯一编号(码点,二进制数据).于是同时,我们也可以根据字符编号找到对应字符集中的唯一字符。(专业点的比喻就是映射);

UTF编码方案:

Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据.

Unicode解决了字符和二进制的对应关系，但是使用unicode表示一个英文字符，太浪费空间。例如：利用unicode表示“Python”需要12个字节才能表示，比原来ASCII表示增加了1倍。

为了解决存储和网络传输的问题，出现了Unicode Transformation Format，学术名UTF，即：对unicode中的格式进行转换，以便于在存储和网络传输时可以节省空间.

同时为了传输时的可靠性，从UNICODE到UTF时并不是直接的对应，而是要过一些算法和规则来转换。

总结：UTF 是为unicode编码设计的一种在存储和传输时节省空间的一系列编码方案。

UCS:

对于Unicode来说，UCS是内码是唯一编号，而UTF-8则是它的实现方式。

从字符经过字符集得到唯一编号的这个过程.就是USC.

UCS只是规定如何编码，并没有规定如何传输、保存这个编码。UCS-2是2个字节保存内码,UCS-4是4个字节保存内码.

例如“汉”字的UCS编码是6C49，我可以用4个ascii数字来传输、保存这个编码；也可以用utf-8编码:3个连续的字节E6 B1 89来表示它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的方案。UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF是“UCS Transformation Format”的缩写。

位(bit)：数据存储的最小单位。每个二进制数字0或者1就是1个位; 0或1

字节(byte)：8个位构成一个字节；即：1 byte (字节)= 8 bit(位); 0000,0000~1111,1111

python中的序列操作: 索引，切片，长度, 组合（序列相加）、重复（乘法），检查成员，遍历(迭代)，最小值和最大值。

# Unicode 是啥

根据前置知识,我们可以猜到.ASCII,Unicode 指的是字符集+字符编码的组合.

ASCII字符集:128个常用英文字符+常用符号

ASCII码 : 一个字节 python中: 2个16进制表示此2进制数据 '\xc4\x80'

Unicode字符集: 万国码,所有国家的字符.

Unicode码 : 两个字节 python中: 4个16进制表示此2进制数据 '\u7fd4'

汉字‘严’的 Unicode 是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说，这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。

# python3中的字符串

字符串是 Python 中最常用的数据类型。我们可以使用引号( ' 或 " )来创建字符串。

python3 字符串是一个 Unicode码点(内码)组成的不可变序列，支持通用序列操作。可以看作是一个都是数字的元组.这个数字可以在Unicode字符集里找到对应的字符.

在Python2中，普通字符串是以1字节ASCII码进行存储的，而Unicode字符串则存储为2字节unicode字符串，这样能够表示更多的字符集。使用的语法是在字符串前面加上前缀 u。

# UTF-8 又是啥?

字符通过unicode编码转成了一个二进制编号数字, 哪怕英文字符也需要2个字节.

而原本ASCII编码英文字符只需要一个字节.老美老欧不爽了,他们不用,unicode就没法全球化.

这导致出现了 Unicode 的多种面向传输的二进制格式照顾老美老欧的情绪:

UTF-8(可变编码格式,最为重要)，UTF-16，UTF-32编码.

UTF-8:被定义为将代码点编码为1至4个字节(其中英文只耗费1个字节,中文3字节),兼容ASCII

UTF-8具体的表现形式为：

0xxxxxxx：单字节编码形式，这和 ASCII 编码完全一样，因此 UTF-8 是兼容 ASCII 的；
110xxxxx 10xxxxxx：双字节编码形式；
1110xxxx 10xxxxxx 10xxxxxx：三字节编码形式；
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx：四字节编码形式。

UTF-16：2个字节

UTF-32：4个字节

注:值得说明的是，虽然utf编码对汉字使用3个字节，但即使对于汉字网页，utf-8编码也会比unicode编码节省，因为网页中包含了很多的英文字符。

# python3中的bytes

bytes对象是一个 0 <= x < 256 区间内的整数(一个字节)不可变序列。

# python3 字符串与bytes的区别

可能有人好奇,字符不特么也是二进制吗,不也是占字节么,python中字符串和bytes连操作都差不多,计算机万物皆二进制啊.都在扯鸡毛蛋呢,把人绕晕了不是.

字符串以,字符为单位进行操作.

bytes由多个字节组成，以字节为单位进行操作。

网络传输中在socket这里.是一个字节一个字节读的.可能读2个字节才是一个字符.

bytes是面向传输的python对象

上面前置知识有一句:为了传输时的可靠性. 可能内码不方便传输?(待续..容我想想.....)

# python3 字符串与bytes的转换

字符串编码转成bytes

b = a.encode(encoding='utf-8') # bytes

bytes解码成字符串

c = b.decode(encoding='utf-8') # str

# 这里可以看出一个汉字 用utf-8编码是3字节
a = '哈哈'.encode('utf-8')
print(a)    # 打印 b'\xe5\x93\x88\xe5\x93\x88'
b = b'\xe5\x93\x88\xe5\x93\x88'.decode('utf-8')
print(b)    # 打印 哈哈

这里再讲一下GBK,为什么GBK看起来能直接编码呢,它的字符集难道也是UNICODE?

UNICODE 在制订时没有考虑与任何一种现有的编码方案保持兼容，这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的，没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换，这种转换必须通过查表来进行。

如果说unicode编码成UTF-8是算过去的,unicode编码成GBK就是一个个找过去的.

unicode码点〉unicode字符集〉字符〉GB2312字符集〉GBK码点

str = "川普牛掰"
str_utf8 = str.encode("UTF-8")
str_gbk = str.encode("GBK")

print(str)
print("UTF-8 编码：", str_utf8)
print("GBK 编码：", str_gbk)
print("UTF-8 解码：", str_utf8.decode('UTF-8', 'strict'))
print("GBK 解码：", str_gbk.decode('GBK', 'strict'))

》〉》打印〉》〉》

川普牛逼
UTF-8 编码： b'\xe5\xb7\x9d\xe6\x99\xae\xe7\x89\x9b\xe9\x80\xbc'
GBK 编码： b'\xb4\xa8\xc6\xd5\xc5\xa3\xb1\xc6'
UTF-8 解码：川普牛逼
GBK 解码：川普牛逼

》〉》〉》〉》

未完待续,我再想想...

晚橙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从字符编码到python的字符串与bytes

最近编写自己的rpc小框架,涉及到bytes.这里就想梳理一下编码与python的字符串和字节码(bytes)类型.先上个图,有个印象,随时可以回头看.# 前置知识字符：在计算机和电信技术中，一个字符是一个单位的字形、类字形单位或符号的基本信息。即一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号等;字符集：多个字符的集合。例如GB2312是中国...
复制链接

扫一扫

专栏目录