UTF-8编码

最新推荐文章于 2023-10-12 10:29:48 发布

hjx5200

最新推荐文章于 2023-10-12 10:29:48 发布

阅读量840

点赞数

本文链接：https://blog.csdn.net/hjx5200/article/details/38847733

版权

通常将文件分为文本文件和二进制文件。其实在物理上，它们都是二进制0或1表示的，但是逻辑划分的不同，也就是解码不同，将它们划分为这两种格式的文件。下面讲述文本文件的实质，尤其是现在非常通用的UTF-8编码。

ASCII码

计算机起源于美国，因此美国人通过将它们语言中常用的字符编码成一个个的数值，然后用二进制表示出来，就是ASCII码（American Standard Code Information Interchange）。

ASCII码都是用一个字节来表示的，且最高位都是0，所以总共可以表示128个不同的字符。从上图可以看出，从20H到7FH是可打印字符，其余是不可打印的。另外，在有些国家为表示更多字符，将最高位也加入编码范围，这样就形成扩展ASCII码，总共可表示256个字符，其中0-127与标准ASCII码相同。

Unicode编码

随着因特网的普及更多国家的字符都需要在计算机里表示，为统一起见，形成了Unicode编码。它将世界上几乎所以的字符都编码成唯一数值，这个数值成为代码点（Code Point）。但是具体如何存储并没有规定，于是有了Unicode的不同编码实现。UTF-8（8-bit Unicode Transformation Format）就是其中一种。另外还有UTF-16等。Unicode也经历了一个发展过程，分为USC-2和USC-4，为使讨论简化，可以认为Unicode涵盖了非常多的字符，包括拉丁文、希腊字母、斯拉夫文、中日韩文等等。并且用唯一的两字节数值表示（USC-2），形式如U+hhhh，每个h表示一个十六进制数，或者用四字节表示字符（USC-4）。Unicode的前128个字符与ASCII码是一致的，即，U+0000 ~ U+007F与上图ASCII表一一对应。

unicode编码表
U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F
-----------------------------------------------------
4e00 一丁丂七丄丅丆万丈三上下丌不与丏
4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟
4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯
4e30 丰丱串丳临丵丶丷丸丹为主丼丽举丿
4e40 乀乁乂乃乄久乆乇么义乊之乌乍乎乏
4e50 乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也
4e60 习乡乢乣乤乥书乧乨乩乪乫乬乭乮乯
4e70 买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿
4e80 亀亁亂亃亄亅了亇予争亊事二亍于亏
4e90 亐云互亓五井亖亗亘亙亚些亜亝亞亟
4ea0 亠亡亢亣交亥亦产亨亩亪享京亭亮亯
4eb0 亰亱亲亳亴亵亶亷亸亹人亻亼亽亾亿
4ec0 什仁仂仃仄仅仆仇仈仉今介仌仍从仏
4ed0 仐仑仒仓仔仕他仗付仙仚仛仜仝仞仟
4ee0 仠仡仢代令以仦仧仨仩仪仫们仭仮仯
4ef0 仰仱仲仳仴仵件价仸仹仺任仼份仾仿
4f00 伀企伂伃伄伅伆伇伈伉伊伋伌伍伎伏
4f10 伐休伒伓伔伕伖众优伙会伛伜伝伞伟
4f20 传伡伢伣伤伥伦伧伨伩伪伫伬伭伮伯

UTF-8实现

说过了，Unicode只是编码规范，对于字符如何存储，也就是编码的实现方式并没有规定。Unicode Transformation Format表明UTF-8是Unicode的转换方式，还有其他实现方式，如UTF-16、UFT-32等，但都不常用，所以不是本文的介绍重点。

UTF-8最大的特点是用变长字节表示不同的字符，从一个字节到四个字节。它的编码实现规则也比较简单：

1）对单字节的字符，其高位为0，其余7为表示字节码，与ASCII码相同，所以UTF-8兼容ASCII码；

2）对n字节表示的字符，其第一个字节的前n个bit都是1，且接下来的一位是0，后面n-1个字节的首两位分别为10。余下的（4 + （n - 1) * (8 - 2))位表示Unicode码。

上面表格表明Unicode的UTF-8实现时，对应的字节数和相应的实现规则。

举例：

如果在文件中输入字符“a一”，一个英文字母和一个汉字，保存的格式是UTF-8，那么看看存储的到底是什么。先猜测结果，然后通过工具验证。如果验证正确，说明我们之前的推理是对的，那么我们对UTF-8编码实现规则的理解就是正确的。a是英文字母，ASCII码值为61H，它的Unicode代码点为：U+00000061，通过上表看出是单字节字符，UTF-8编码是61H，与ASCII码完全相同。汉字“一”，通过查找汉字Unicode编码知，它的代码点是U+00004e00，上表可以得知它是三字节字符，第一字节的前三位是1，接着是0，后两字节的首两位分别是10，剩下的16位填上4e00，高位填充0，所以是1110 0100| 10 111000| 10 000000，e4b880H。加上前面的字母“a”，总的结果是61e4b880H.

验证：

UltraEdit软件具有十六进制查看功能，输入“a一”，选择保存的格式为“UTF-8 - 无BOM”。那么文件就是UTF格式存储的，打开时默认是按字符格式打开。这时编辑器读取文件的内容，然后解码，显示字符，跟输入的结果一样。点击“切换十六进制模式”后，看到的是文件的十六进制内容，显示“61e4b880”正是我们之前测试的结果。

BOM(Byte Order Mark)字节序符号

UTF-8不需要字节序就可以判断出对应的Unicode代码点。而对于UTF-16，不同实现方式，对大端小端策略不同。在windows上默认的UTF-8会在文件前面加上BOM标志：EF BB BF，以上面例子结果就是EF BB BF E4 B8 80。如果存储格式为“UTF-8 - 无BOM”，那么文件前面就没有BOM标志。