【GiraKoo】常用编码的对比（ASCII，GB2312，GBK，GB18030，UCS，Unicode）

GiraKoo

已于 2023-03-02 10:21:24 修改

阅读量207

点赞数 1

分类专栏：技术分享文章标签： c++ 开发语言

于 2023-03-01 14:12:15 首次发布

本文链接：https://blog.csdn.net/girakoo/article/details/129185987

版权

5 篇文章 0 订阅

订阅专栏

常用编码的对比（ASCII，GB2312，GBK，GB18030，UCS，Unicode）

在程序开发中，文字编码一直扮演着人畜无害，却背后捅一刀的角色。

可能在源代码文件中，注释莫名其妙地变成了乱码。
可能是发送给别人的文本，打开都是“锟斤拷”。
可能是从一个程序拷贝到另一个程序，莫名其妙的丢失内容。
可能是VS编译时，不停的提示“warning C4819: The file contains a character that cannot be represented in the current code page (936). Save the file in Unicode format to prevent data loss”
在某些字体下面，明明显示的很好的符号，更换字体就显示的乱七八糟。甚至直接是方框。

受限于早期系统设计的百花齐放，各大语言为了满足自己的需要发明了本国方言。
为了统一度量衡，Unicode应运而生。
但是即使是Unicode，也出现了UTF-8，UTF-16，UTF-32这样细分编码。

在B站上，有一个非常详细的字符编码讲解视频。其中涉及到编码的发展史，统一历程，以及锟斤拷这样的乱码究竟时怎么样产生的。非常推荐大家更加直观的了解Unicode编码是如何一统天下的。

每个字以2个字节来组成。
共收录了21003个汉字，完全兼容GB2312-80标准，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。

每个字可以由1个、2个或4个字节组成。
GB18030-2005，以汉字为主并包含多种我国少数民族文字（如藏、蒙古、傣、彝、朝鲜、维吾尔文等）的超大型中文编码字符集强制性标准，其中收入汉字70000余个。

通用多八位编码字符集（Universal Multiple-Octet Coded Character Set）也叫通用字符集（Universal Character Set, UCS），是由ISO制定的ISO 10646（或称ISO/IEC 10646）标准所定义的标准字符集。
由国际标准化组织（ISO）制定。

该插件可以在文本编辑器右下角直接查看当前文件编码，点击更换可直接进行编码转换。非常方便。

关注