计算机字符编码：从ASCII到Unicode的全面解读-CSDN博客

本文链接：https://blog.csdn.net/cnds123/article/details/116208704

计算机字符编码基础知识

由于计算机只能识别0和1，所以字符（文字、符号）需要编码，图像、音频、视频等也需要编码。本文主要介绍字符编码，特别是与机内码相关的内容。

字符的处理涉及到下列三类编码：

输入码，也叫外码，如键盘输入法编码。

机内码，主要解决字符的储存。

输出码，又称为字形码、字模码、涉及字形库（字库），包括点阵字形、轮廓描述字形。

下面着重介绍与机内码相关的内容。

字符

字符（Character）：说的简单点字符是各种文字和符号的总称。一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号、一个图形符号或者控制符号等。

字符编码

字符编码（Character Encoding）：字符编码是指一种映射规则，根据这个映射规则可以将某个字符映射成其他形式的数据以便在计算机中存储和传输。例如ASCII字符编码规定使用单字节中低位的7个比特去编码所有的字符，在这个编码规则中字母A的编号是65（ASCII码），用单字节表示就是0x41，因此写入存储设备的时候就是二进制的 01000001。每种字符集都有自己的字符编码规则。

在计算机科学领域中，Unicode（统一码、万国码、单一码、标准万国码）是业界的一种标准，它可以使电脑得以体现世界上数十种文字的系统。Unicode 是基于通用字符集（Universal Character Set）的标准来发展，并且同时也以书本的形式对外发表。Unicode 还不断在扩增，每个新版本插入更多新的字符。Unicode 就已经包含了超过十万个字符（在2005年，Unicode 的第十万个字符被采纳且认可成为标准之一）、一组可用以作为视觉参考的代码图表、一套编码方法与一组标准字符编码、一套包含了上标字、下标字等字符特性的枚举等。Unicode 组织（The Unicode Consortium）是由一个非营利性的机构所运作，并主导 Unicode 的后续发展，其目标在于：将既有的字符编码方案以Unicode 编码方案来加以取代，特别是既有的方案在多语环境下，皆仅有有限的空间以及不兼容的问题。

ASCII

ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）是一套基于拉丁字母的字符编码，共收录了 128 个字符，用一个字节就可以存储，它等同于国际标准 ISO/IEC 646。

这套编码规则是由美国定制，一共规定了128个字符的编码，比如空格"SPACE"是32（十进制）（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括 32个不能打印出来的控制符号），只占用了一个字节（8 bit）的后面7位，最前面的1位统一规定为0，总共才有128个字符编码。

对于美国人来说，这完全足够用了，但是对于其它国家，如中国文字来说，一个字节实在是太少了，于是很多地区国家就有了自己的扩展编码标准，但无一例外的兼容 ASCII 编码。

为了处理中文汉字，我国设计发布了GB2312、GBK、GB18030等编码标准：

GB2312：基本集共收入汉字6763个和非汉字图形字符682个。

GBK：共收录了21003个汉字。

GB18030 ：共收录汉字70244个。

对此就不深入介绍了，原因见下面。

Unicode

显然，各个国家要想让计算机处理其文字，因此制定了各种各样的编码标准。有没有一种编码标准能收录世界上所有的字符，并提供存储实现呢？

Unicode 的诞生就是为了统一世界上所有编码的，它包含了世界上近乎所有的字符，总共收录将近 110 多万个字符集合，编号范围从 0x000000 到 0x10FFFF。但大多数字符在范围：0x0000 到 0xFFFF 之间（即小于 65536），每个字符都有一个 Unicode 编号并且一般用十六进制表示，前置 U+ 如： U+0041表示英语的大写字母A，U+4E25表示汉字严。

Unicode是一种编码标准，它只是为世界上的所有字符进行了编号，并没有指定每个字符每个编号该如何映射为某个二进制串， Unicode 的主要实现方式有： UTF-8、UTF-16和UTF-32。下面，简要介绍具体实现细节。

Unicode中的码点（Code Point）范围是U+0000~U+10FFFF，把每65536个码点作为一个平面（Plane），总共17个平面，编号从0开始，第一个平面称为Plane 0。

第一个平面即是BMP（Basic Multilingual Plane 基本多语言平面），也叫Plane 0，它的码点范围是U+0000~U+FFFF。这也是我们最常用的平面，日常用到的字符绝大多数都落在这个平面内。UTF-16只需要用两字节编码此平面内的字符。

后续的16个平面称为SP（Supplementary Planes、增补平面）。显然，这些码点已经是超过U+FFFF的了，所以已经超过了16位空间的理论上限，对于这些平面内的字符，UTF-16采用了四字节编码。

注：其中很多平面还是空的，还没有分配任何字符，只是先规划了这么多。

UTF-8（8-bit Unicode Transformation Format）

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8 的编码规则：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。

2）对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

下表总结了编码规则，字母x表示可用编码的位。

汉字 [杨] 的 Unicode 编号是：0x6768 ，十进制：26472，二进制是：0110 0111 0110 1000

显然，该汉字的 UTF-8 标准编码格式为：1110xxxx 10xxxxxx 10xxxxxx

0x6768 的二进制是：0110 0111 0110 1000

从这个二进制的最后一位开始，依次从后向前替换编码格式中的 x 即可。

UTF-16

UTF-16只使用2或4个字节编码。UTF-16也是Unicode一种具体的编码实现。UTf-16编码规则如下：

① 若Unicode码点在第一平面（BMP）中，则使用2个字节进行编码。

② 若Unicode码点在其他平面（辅助平面），则使用4个字节进行编码。

关于辅助平面的码点编码更详细解析如下：辅助平面码点被编码为一对16比特（四个字节）长的码元, 称之为代理对(surrogate pair), 第一部分称为高位代理(high surrogate)或前导代理(lead surrogates)，码位范围为：D800-DBFF. 第二部分称为低位代理(low surrogate)或后尾代理(trail surrogates)，码位范围为：DC00-DFFF。注意，高位代理的码位从D800到DBFF，而低位代理的码位从DC00到DFFF，总共恰好为D800-DFFF，这部分码点在第一平面内是保留的，不映射到任何字符，所以UTF-16编码巧妙的利用了这点来进行码点在辅助平面内的4字节编码。

字符”A”的Unicode码点为65（十进制），十六进制表示为41，在第一平面。根据规则，UTF-16采用2个字节进行编码。那么问题又来了，知道了采用两个字节编码，并且我们也知道计算机是以字节为单位进行存储，这两个字节应该表示为00 41(十六进制)？或者是41 00（十六进制）呢？这就引出了一个问题，需要用到之前提及的BOM机制来解决。

表示为00 41意味着采用了大端序（Big endian），而表示为41 00意味着采用了小端序。那么计算机如何知道存储的字符信息采用了大端序还是小端虚呢？这就需要加入一些控制信息，具体是采用大端序，则在文件前加入FE FF，采用小端序，则在文件前加入FF FE。这样，当计算开始读取时发现前两个字节为FE FF，就表示之后的信息采用的是小端序。

Unicode转UTF-16规则流程图如下：