字符编码大全

最新推荐文章于 2021-10-11 19:27:12 发布

QQ384697384

最新推荐文章于 2021-10-11 19:27:12 发布

阅读量1.6k

点赞数 2

分类专栏： WindowsAPI基础介绍

WindowsAPI基础介绍专栏收录该内容

5 篇文章 0 订阅

订阅专栏

今天看了一个说法，说是入坑windows程序开发，必先掌握文字的编码和字符集知识。本博客就整理下信息存储和字符编码的相关知识。
一.位
计算机存储信息的最小单位，称之为位（bit），音译比特，二进制的一个“0”或一个“1”叫一位。
二.字节
字节（Byte）是一种计量单位，表示数据量多少，它是计算机信息技术用于计量存储容量的一种计量单位，8个二进制位组成1个字节。在ASCII码中，一个标准英文字母（不分大小写）占一个字节位置，一个标准汉字占二个字节位置。
三.字符
字符是指计算机中使用的文字和符号，比如“1、2、3、A、B、C、~！·#￥%…*（）+”等等。

四.编码发展历史背景

计算机被发明的时候，人们认为不会像现在这么流行，所以包括控制字符在内人们只定义了包括控制字符在内的128种符号，这就是 ASCII。

后来计算机流行到非英语国家，那么他们有自己的语言需要计算机显示。由于ASCII符号只有128个，而计算机一个字节有8位，所以还有128个冗余，于是他们用剩余的128个冗余表示他们自己国家的文字。不同的国家把这128个（其实是95个）定义成不同的字符，分别叫做ISO8859-1(Latin-1),ISO8859-2(Latin-2).....ISO8859-16(Latin-10)。额，中间有一部分不叫 Latin（好坑人呀）

但是在东亚，就说中国吧，128个显然表示不了所有的汉字。所以就只能用两个字节表示一个汉字。于是规定，原始的 ASCII 还是用一个字节表示，使用连续两个字节（这两个字节值都大于128的部分）表示一个汉字。一共可以表示128×128=16384个汉字（实际没有那么多），叫做 GB2312。后来人们发现自己太傻，其实第一个字节的字节值大于128的话，我们用连续两个字节表示一个汉字也不会出现歧义，所以规定，如果当前字节的字节值小于128那么就是标准的 ASCII，如果当前字节的字节值大于128就用当前字节和后面那个字节表示一个汉字，所以可以表示（128×256=32768）个汉字，然后补充了一部分汉字，叫做 GBK。在此基础上又增加了一部分汉字，这个版本叫做 GB18030。（东亚标准里还有BIG5和CJK的故事）。

不同的国家有不同的标准，所以当大家交流的时候就不方便了。所以出现了两个组织（忘记具体叫什么了），开始着手统一全部的字符集（后来其中一个组织觉得另一个组织做就好了，主动退出了），叫做 Unicode。

但是 Unicode 只规定了一个字符的编号，并没有规定具体怎么表示。比如 A 编号65，具体表示的时候可以用一个字节 0x41 表示，可以用两个字节表示 0x00 0x41，或者用四个字节表示 0x00 0x00 0x00 0x41，而且多个字节表示的话还有谁在前的问题。所以在 unicode 表示上出现了不同的标准。UTF-8 就是一种表示的标准（终于说到UTF-8了），不过具体怎么表示就有点儿复杂了，是一种变长编码，有些字符用一个字节（兼容ASCII，这就是为什么UTF-8比较流行）有些用两个有些三个。。。随便百度了一个表示方式，就是把一个如何把一个数字转成几个字节表示。

扩展1：还有两种标准 UTF-16，UTF-32,UTF-16统一个用两个字节或是四个字节表示一个字符（java,javascript里就是这种编码，这其中还有USC定长编码的故事），UTF-32统一用4个字节，所以都不兼容ASCII。既然是多字节，就涉及字节顺序的问题。

扩展2：GB18030 是中国的标准，国标(GB)，就是如何表示一个字符。Unicode只给出了一个字符的编号，并没有规定如何表示(或者说保存)，UTF-8规定了如何表示。所以说，GB18030 和 unicode+utf-8 是不同的字符表示方式，一个是中国制定的标准，一个是国际上的组织制定的标准。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

1.国际组织标准编码

1.1 ASCII码
先从最简单的ASCII说起吧，这个大家也熟悉：全名是American Standard Code for Information Interchange，叫做“美国信息交换标准码”。ASCII码中，一个英文字母（不分大小写）占一个字节的空间，一个中文汉字占两个字节的空间。ASCII码是目前最普及的一种字符编码，它扎根于我们的互联网，操作系统，键盘，打印机，文件字体和打印机等。ASCII表如下：

当然，从这个名字美国信息交换标准码来看，ASCII码只适用于美帝，要是用在美帝之外的国家，就不能满足需求了。
1.2 ANSI码
ANSI编码是一种对ASCII码的拓展：ANSI编码用0x00~0x7f 范围的1 个字节来表示 1 个英文字符，超出一个字节的 0x80~0xFFFF 范围来表示其他语言的其他字符。也就是说，ANSI码仅在前126个与ASCII码相同，之后的字符全是某个国家语言的所有字符。值得注意的是，两个字节最多可以存储的字符数目是2的16次方，即65536个字符，这对于一个语言的字符来说，绝对够了。还有ANSI编码其实包括很多编码：中国制定了GB2312(别名GBK)编码，用来把中文编进去另外，在繁体中文Windows操作系统中，ANSI编码代表Big5。日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准。受制于当时的条件，不同语言之间的ANSI码之间不能互相转换，这就会导致在多语言混合的文本中会有乱码。
1.3 Unicode编码
为了解决不同国家ANSI编码的冲突问题，Unicode应运而生：如果全世界每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表示的，这是一种所有符号的编码。
Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。
但是问题在于，原本可以用一个字节存储的英文字母在Unicode里面必须存两个字节（规则就是在原来英文字母对应ASCII码前面补0），这就产生了浪费。那么有没有一种既能消除乱码，又能避免浪费的编码方式呢？答案就是UTF-8！
1.4 UTF-8编码
这是一种变长的编码方式：它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，当字符在ASCII码的范围时，就用一个字节表示，保留了ASCII字符一个字节的编码做为它的一部分，如此一来UTF-8编码也可以是为视为一种对ASCII码的拓展。值得注意的是unicode编码中一个中文字符占2个字节，而UTF-8一个中文字符占3个字节。从unicode到uft-8并不是直接的对应，而是要过一些算法和规则来转换。
八.在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。
用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。

2 中国制定的标准编码

2.1 GB2312-80

GB 2312 或 GB 2312-80 是中国国家标准简体中文字符集，全称《信息交换用汉字编码字符集·基本集》，又称 GB 0，由中国国家标准总局发布，1981 年 5 月 1 日实施。GB 2312 编码通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持 GB 2312。

GB 2312 标准共收录 6763 个汉字，其中一级汉字 3755 个，二级汉字 3008 个；同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。
GB 2312 的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75% 的使用频率。
对于人名、古汉语等方面出现的罕用字，GB 2312 不能处理，这导致了后来 GBK 及 GB 18030 汉字字符集的出现。

GB 2312 对任意一个图形字符都采用两个字节表示，并对所收汉字进行了“分区”处理，每区含有 94 个汉字／符号，分别对应第一字节和第二字节。这种表示方式也称为区位码。
01-09 区为特殊符号。
16-55 区为一级汉字，按拼音排序。
56-87 区为二级汉字，按部首／笔画排序。
10-15 区及 88-94 区则未有编码。
GB 2312 的编码范围为 2121H-777EH，与 ASCII 有重叠，通行方法是将 GB 码两个字节的最高位置 1 以示区别。

2.2 GBK

GBK 即汉字内码扩展规范，K 为汉语拼音 Kuo Zhan（扩展）中“扩”字的声母。英文全称 Chinese Internal Code Specification。

GBK 共收入 21886 个汉字和图形符号，包括：
GB 2312 中的全部汉字、非汉字符号。
BIG5 中的全部汉字。
与 ISO 10646 相应的国家标准 GB 13000 中的其它 CJK 汉字，以上合计 20902 个汉字。
其它汉字、部首、符号，共计 984 个。
GBK 向下与 GB 2312 完全兼容，向上支持 ISO 10646 国际标准，在前者向后者过渡过程中起到的承上启下的作用。

GBK 采用双字节表示，总体编码范围为 8140-FEFE 之间，首字节在 81-FE 之间，尾字节在 40-FE 之间，剔除 XX7F 一条线。GBK 编码区分三部分：
汉字区　包括
GBK/2：OXBOA1-F7FE, 收录 GB 2312 汉字 6763 个，按原序排列；
GBK/3：OX8140-AOFE，收录 CJK 汉字 6080 个；
GBK/4：OXAA40-FEAO，收录 CJK 汉字和增补的汉字 8160 个。
图形符号区　包括
GBK/1：OXA1A1-A9FE，除 GB 2312 的符号外，还增补了其它符号
GBK/5：OXA840-A9AO，扩除非汉字区。
用户自定义区
GBK 区域中的空白区，用户可以自己定义字符。

2.3 GB18030

GB 18030，全称：国家标准 GB 18030-2005《信息技术中文编码字符集》，是中华人民共和国现时最新的内码字集，是 GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》的修订版。
GB 18030 与 GB 2312-1980 和 GBK 兼容，共收录汉字70244个。
与 UTF-8 相同，采用多字节编码，每个字可以由 1 个、2 个或 4 个字节组成。
编码空间庞大，最多可定义 161 万个字符。
支持中国国内少数民族的文字，不需要动用造字区。
汉字收录范围包含繁体汉字以及日韩汉字
GB 18030 编码是一二四字节变长编码。
单字节，其值从 0 到 0x7F，与 ASCII 编码兼容。
双字节，第一个字节的值从 0x81 到 0xFE，第二个字节的值从 0x40 到 0xFE（不包括0x7F），与 GBK 标准兼容。
四字节，第一个字节的值从 0x81 到 0xFE，第二个字节的值从 0x30 到 0x39，第三个字节从0x81 到 0xFE，第四个字节从 0x30 到 0x39。

3.一些实用的结论

常用中文字符用utf-8编码占用3个字节（大约2万多字），但超大字符集中的更大多数汉字要占4个字节（在unicode编码体系中，U+20000开始有5万多汉字）。
GBK、GB2312收编的汉字占2个字节，严格地用iso8859-1无法表示汉字，只能转为问号。

所以，utf-8中文字在编程过程当中可以按照三个字节定义处理。GB18030兼容GBK兼容GB2312中文字符占两个字节，ISO8859-1是拉丁字符（ASCII字符）占一个字节。

QQ384697384

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
字符编码大全

今天看了一个说法，说是入坑windows程序开发，必先掌握文字的编码和字符集知识。本博客就整理下信息存储和字符编码的相关知识。一.位计算机存储信息的最小单位，称之为位（bit），音译比特，二进制的一个“0”或一个“1”叫一位。二.字节字节（Byte）是一种计量单位，表示数据量多少，它是计算机信息技术用于计量存储容量的一种计量单位，8个二进制位组成1个字节。在ASCII码中，一个标准英文字...
复制链接

扫一扫