python 字符的编码

xuxuejian9824

已于 2022-06-25 20:51:35 修改

阅读量615

点赞数

分类专栏： python基础知识文章标签： python

于 2022-06-23 20:01:51 首次发布

本文链接：https://blog.csdn.net/weixin_42576837/article/details/125392332

版权

python基础知识专栏收录该内容

18 篇文章 3 订阅

订阅专栏

参考廖雪峰-字符串和编码
 https://blog.csdn.net/weixin_41789688/article/details/116787795
Unicode编码详解(一)：Unicode简介及其分类

首先计算机内部只能识别数字，在底层就是0，1编码。比如：不论是数字100，还是字符今天，在底层都是1010 1000 1010 这种形式的二进制代码

二进制：
二进制只有0,1两种状态，所以只需要一个二进制位（也就是一个比特位）就可以表示二进制数。
在这里插入图片描述

八进制：
八进制有八种状态：0,1，2,3，4,5，6,7
八种状态需要三个比特位才能表示 000–111
所以一个八进制数占了三个比特，比如 7 表示出来就是三个比特位111才能表示
在这里插入图片描述

十六进制：
十六进制有16种状态: 0-9,A-F
十六中状态可以用四个比特位表示 0000-1111。
所以一个十六进制数，对应着4个比特位。

假设汉字一共只有16种，我们让每一个汉字对应着一个数字（0-15），用十六进制表示就是
在这里插入图片描述
这些十六进制数，在计算机内可以用比特位来表示出来，所以这样中文的文本就可以在计算机中表示了。

所以 天气真好 在计算机中就表示成了 1111 1010 0100 0010

基于这种想法，由于计算机是美国人发明的，所以他们也想让计算机可以表示出他们的语言。对于英语来说，26个大写字母，26个小写字母，10个数字，加上其他的一些符号，他们一共就127个字符，所以他们建立了一个对应关系：
在这里插入图片描述
这就是ascii码表，一共128个字符，使用一个字节（xxxx xxxx）就可以完全表示这些字符。一个字节能表示的最大的整数就是255（二进制11111111=十进制255），就是255种状态，表示128种状态肯定是够了。

汉语中有那么多个汉字，算上各种繁体字，大概几万个吧，这些字符仅仅使用一个字节是不够的。比如两个字节可以表示的最大整数是65535。

但是现在这么多国家都在使用计算机，不同国家字符不同，所以不同的国家又自己制定了自己需要的一张表。

假如说现在用两个字节（0—65535）来表示这些字符。除去一些通用的字符（数字，符号之类的），然后不同的国家需要不同的字符对应关系，比如：
在汉语中， 21234 —> 编
日语中，21234 —> xx(反正是其他的字符)
那么同样的一段编码，在不同的计算机中，解码出的语言就完全不一样了，这样肯定是不行的。

Unicode

因此，Unicode字符集应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。

可以简单理解为Unicode字符集是一个非常大的表，包括了全世界的字符，它给出了一个统一的规定，比如，哪个字符用哪个数表示，全球统一，这样就不存在乱码了。

Unicode为世界上所有字符都分配了一个唯一的数字编号，这个编号范围从 0x000000 到 0x10FFFF(十六进制)，有110多万，每个字符都有一个唯一的Unicode编号，这个编号一般写成16进制，在前面加上U+。例如：“马”的Unicode是U+9A6C。

实际上每个字符都有一个10进制的整数来对应，这样方便我们人类来看，然后在Unicode字符集中，我们又给了它们另一个编号，这个编号是从0x000000 到 0x10FFFF(十六进制)，所以每个字符对应一个10进制整数，同时也对应一个Unicode编号：U+xxxxxx形式

下面这里U+4E24，可以看出形式U+xxxxxx不是这种，我的理解是，这些字符是常用字符，位于第0个平面。前面两位直接省略了：

Unicode编码详解(一)：Unicode简介及其分类
这个博文写得很详细
在这里插入图片描述

Unicode本身只规定了每个字符的数字编号是多少，并没有规定这个编号如何存储。

既然是十六进制，编号范围从 0x000000 到 0x10FFFF(十六进制)，那么直接用这些编号对应的二进制存储也是可以的。
但是问题就是，这里有6个十六进制位，也就是24个比特位（3个字节），编码方式是比较简单，但是浪费空间啊，比如有个字符：
在这里插入图片描述
实际上a对应的十六进制0x000061对应的二进制完全不需要那么多位来表示
110 0001 就可以表示了，前面那么多字节就浪费了。