ASCII、GBK、Unicode及UTF-8

最新推荐文章于 2024-09-09 17:35:53 发布

西瓜味儿的小志

最新推荐文章于 2024-09-09 17:35:53 发布

阅读量325

点赞数

分类专栏：后端文章标签：单元测试

本文链接：https://blog.csdn.net/Destiny_shine/article/details/118298720

版权

后端专栏收录该内容

7 篇文章 0 订阅

订阅专栏

背景
我们知道，计算机是基于二进制来运算的，所以是不能直接让计算机运行或者保存我们人类的文字信息的，一定是把我们输入的文字变成二进制数来保存。这样就有一个问题了，一个英文字母A 应该用哪个二进制数来表式呢? 假设我在计算机上设置了 A=“00”，你在计算机上设置了A=“01”，甚至每个人都可以约定自己的A是任意一个二进制数，那当我通过网络或者硬盘将我的"00"发送给你，你的计算机是无法判断"00"表示哪个字母或者你正好也有一个字母定义成"00"但是却不是A，所以我们势必要有一个通用的标准,来让所有的计算机统一，这样才能保证在同一个文件在我电脑上显示的和在任何人电脑上显示的内容是一直的，没有歧义的，所以在计算机发展的早期ASCII出现了。

ASCII
ASCII 是通过8位二进制数来表示所有的大写和小写字母，数字0 到9、标点符号，以及当时约定的一些控制字符(如图下表)，ASCII 码一共规定了128个字符的编码，比如空格SPACE是32（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的一位统一规定为0。
在这里插入图片描述

GBK
在网上找了各种资料的时候遇到了一个知乎高赞回答，比较形象的解释了GBK的诞生，直接搬过来大家看看吧，其中也很好的解释了学校里计算机老师一个劲说的一个汉字=2个英文的原因。

已经没有可以利用的字节状态来表示汉字，况且有6000多个常用汉字需要保存呢。但是这难不倒智慧的中国人民，我们不客气地把那些127号之后的奇异符号们直接取消掉, 规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的”全角”字符，而原来在127号以下的那些就叫”半角”字符了。中国人民看到这样很不错，于是就把这种汉字方案叫做 “GB2312“。GB2312 是对 ASCII 的中文扩展。
但是中国的汉字太多了，我们很快就就发现有许多人的人名没有办法在这里打出来，特别是某些很会麻烦别人的国家领导人。于是我们不得不继续把GB2312 没有用到的码位找出来老实不客气地用上。后来还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字
符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK包括了GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。后来少数民族也要用电脑了，于是我们再扩展，又加了几千个新的少数民族的字，GBK扩成了 GB18030。从此之后，中华民族的文化就可以在计算机时代中传承了。中国的程序员们看到这一系列汉字编码的标准是好的，于是通称他们叫做 “DBCS“（Double Byte Charecter Set 双字节字符集）。在DBCS系列标准里，最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里，因此他们写的程序为了支持中文处理，必须要注意字串里的每一个字节的值，如果这个值是大于127的，那么就认为一个双字节字符集里的字符出现了。那时候凡是受过加持，会编程的计算机僧侣们都要每天念下面这个咒语数百遍： “一个汉字算两个英文字符！一个汉字算两个英文字符……”
因为当时各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码，连大陆和台湾这样只相隔了150海里，使用着同一种语言的兄弟地区，也分别采用了不同的 DBCS 编码方案——当时的中国人想让电脑显示汉字，就必须装上一个”汉字系统”，专门用来处理汉字的显示、输入的问题，像是那个台湾的愚昧封建人士写的算命程序就必须加装另一套支持 BIG5 编码的什么”倚天汉字系统”才可以用，装错了字符系统，显示就会乱了套！这怎么办？而且世界民族之林中还有那些一时用不上电脑的穷苦人民，他们的文字又怎么办？真是计算机的巴比伦塔命题啊！

Unicode
ISO（国际标准化组织）的国际组织废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码”Universal Multiple-Octet Coded Character Set”，简称 UCS, 俗称 “unicode“。通过Unicode计算机不就可以在全世界中无缝对接所有语言信息,正如Unicode这个单词的意思：统一码

当时为了兼容所有字符，unicode规定必须用两个字节，也就是16位来统一表示所有的字符，由于”半角”英文符号只需要用到低8位，其高8位永远是0，所以直接使用 Unicode 编码在保存英文文本时会多浪费一倍的空间。

UTF-8
UTF-8就是在互联网上使用最广的一种unicode的实现方式。我想大家明白一件事情，utf-8不是一个字符集，它是Unicode的一种使用规范或者说是编码格式，或者大家可以理解成 utf-8 是Unicode的一种算法。

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8 的编码规则很简单，只有二条：

1）对于单字节的符号：字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的；
2）对于n字节的符号（n > 1）：第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

下表总结了编码规则，字母x表示可用编码的位：
在这里插入图片描述