UTF-8、UTF-16、Unicode、GB2312、GBK、GB18030一次说清楚

最新推荐文章于 2023-08-09 12:23:30 发布

朝霞红漫天

最新推荐文章于 2023-08-09 12:23:30 发布

阅读量4.4k

点赞数 3

文章标签：前端 java 服务器

本文链接：https://blog.csdn.net/fanghongxia2008/article/details/130487199

版权

文章讲述了存储编码和显示编码的区别，强调了UTF-8在节约空间和全球适用性上的优势，以及GB2312、GBK、GB18030在中国的使用，因为它们对中文字符的高效存储。GB18030作为GBK的升级版，收录更多字符，而2022版进一步增加了中日韩统一表义文字和其他少数民族文字。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、关于存储编码和显示编码的区别。
Unicode是显示编码，UTF-8、UTF-16、GB2312、GBK、GB18030都是存储/传输方面使用，也叫做存储编码、处理编码，你在计算机上看见的所有文字都从存储编码转成显示编码后，显示出来，当你单机保存时又从显示编码转换为存储编码存储起来。

2、为什么要区分存储编码和显示编码？
目前是为了节约存储空间和节约传输带宽，自古以来磁盘存储资源和传输资源都是需要昂贵代价的，虽然Unicode编码很好、覆盖很全、被称为万国码，但是它的编码并不节约空间，Unicode编码对应的存储编码的实现是UTF-16，也就是说UTF-16基本等于Unicode，和Unicode一样不节约空间，因为UTF-16不够节约空间，这就产生了UTF-8编码。UTF-8编码比Unicode节约空间很多，而且可以做到可Unicode一一映射，已经成为全球使用最广的文字处理编码方式。

3、中国为什么要发展GB2312/GBK/GB18030这些区别于UTF-8的存储编码？
既然UTF-8编码那么优秀，可以和Unicode一一映射，然后又很节约空间，为什么不直接采用UTF-8编码来存储和传输呢？一定要发展GB系列（中国国标系列）的编码呢?
对于一个需要包容全世界语言文字的文件，建议用UTF-8编码来存储和传输，比如一个txt文件里，你既需要放中国汉字，还要在该文件里写入新加坡语文字、德语文字、法语文字、意大利文字，葡萄牙文字，匈牙利文字，那么这个文件肯定是要存储成UTF-8编码格式。但是对于只需要存放中文文字和数字、字母、标点符号的一个文件，用UTF-8编码还不是最节约空间的。GB系列的标准对于汉字的存储和传输比UTF-8编码还节约空间很多，大约节约1/4到1/3左右的存储空间，所以GB系的编码在中国这片大地上很实用，很节省空间、节约带宽。打个最简单的比喻，20个学生的学号，后面的10-20这些人的学号必然是个“2位数”，如果你只有9个学生，那么这9个学生的学号都是个“1位数”，当然就节约空间一些，GB系列的编码不能处理德语、法语等其他国家的文字，它所考虑的范围就少一些，那么它就比UTF-8节约空间。

4、GB2312、GBK、GB18030这三款有哪些区别呢？
GB/T 2312-1980标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。GB2312的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率。GB2312采用EUC储存方法，以便兼容于ASCII编码，GB2312编码存储的文字，每个符号最多用2个字节，最少用1个字节。它的生命周期就是1980年-1995年.

GBK的全称是《汉字内码扩展规范》（Chinese Internal Code Specification），中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订，国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式，将它确定为技术规范指导性文件。2000年已被GB18030-2000替代。GBK编码，是在GB2312-80标准基础上的内码扩展规范，使用了双字节编码方案，共23940个码位，共收录了21003个汉字，完全兼容GB2312-80标准。用最简单的话来说就是将GB2312的6千多个汉字扩充到了2万多个汉字，加了日、韩等邻国的常用文字和中文冷僻的人名、古汉语、繁体字等一些字。它的生命周期是1995年-2000年.中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP、WIN7、win10等都支持GBK编码方案。

GB18030是在GBK之后发展起来的，它是用以替代GBK的一部国家强制性标准，它完全兼容GB2312，基本兼容GBK，它收录的字比GBK多得多，GB18030-2005共计7万余符号，包括了CJK-A、CJK、CJK-B等中日韩统一表义文字。GB18030每个符号可能占1个/2个/4字节，而GB2312和GBK编码的每个符号可能占1个/2个字节。GB18030共发过三版，GB18030-2000是第一版、GB18030-2005是第二版，GB18030-2022是第三版，一版比一版文字多，2005版将于2023年7月31日废止，2022版将于2023年8月1日起实施。

5、GB18030-2005和GB18030-2022有哪些区别呢?
GBK在GB2312基础上收录了CJK-A中日韩统一表义文字，GB18030-2005在GBK基础上收录了CJK、CJK-B等中日韩统一表义文字，GB18030-2022在GB18030-2005基础上增加了CJK-C、CJK-D、CJK-E、CJK-F四部分中日韩统一表义文字和其他少数民族的一些文字，还修改编码映射18个、删除重复映射9个、删除文字6个。

GB18030-2005将符合性级别区分为“强制性部分符合”和“完全集符合”，强制性部分符合测试则约等于 GBK，共计2万多字符；完全集部分则有7万多字符。
GB18030-2022将符合性级别区分为“实现级别1”、“实现级别2”、“实现级别3”；
实现级别1要测单字节部分、双字节部分和CJK-A、CJK部分，约等于GB18030-2005的强制性部分。
实现级别2要测级别1基础上，加测通用规范汉字表，而通用规范汉字表夹含在双字节部分和CJK-A、CJK、CJK-B当中，而在通用规范汉字表当中且不在实现级别1里的，只有220多个汉字，所以实现级别2只比实现级别1加测约220余个汉字。
实现级别3要测级别2基础上，加测CJK-B、CJK-C、CJK-D、CJK-E、CJK-F,实现级别3比实现级别2加测约6万多个符号，共计是8万7千多个汉字。