字符集和字符编码

最新推荐文章于 2024-09-14 20:32:24 发布

行之88

最新推荐文章于 2024-09-14 20:32:24 发布

阅读量278

点赞数

本文链接：https://blog.csdn.net/Since_lily/article/details/89245414

版权

本文为网络收集，仅用于总结，以便日后回看

参考 https://www.cnblogs.com/happyday56/p/4135845.html

字符集（Charset）

字符集，是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。

最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集, 它使用7 bits来表示一个字符，总共表示128个字符，其中包括了英文字母、数字、标点符号等常用字符。之后又进行了扩展，使用8 bits表示一个字符，可以表示256个字符，主要在原来的7 bits字符集的基础上加入了一些特殊符号。后来，由于各国语言的加入，ASCII已经不能满足信息交流的需要，为了能够表示其它国家的文字，各国在 ASCII的基础上制定了自己的字符集，这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础，兼容ASCII 127，他们使用大于128的编码作为一个Leading Byte，紧跟在Leading Byte后的第二（甚至第三）个字符与 Leading Byte一起作为实际的编码。后来，随着世界人民的交流，迫切需要一个字符集，包含全世界的字符（英文字母，数字，汉字，法语等等），于是unicode字符集出现了。

Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。Unicode当然是一个非常大的集合, 如今的规模能够容纳100多万个符号. 每一个符号的编码都不一样，比如0041表示英语的大写字母A，4E2D表示汉字"中"。

常用字符集：ASCII字符集，iso8859-1字符集，GB2312字符集，BIG5字符集，unicode字符集

ASCII字符集：主要包括控制字符（回车键、退格、换行键等）；可显示字符（英文大小写字符、阿拉伯数字和西文符号），单字节编码字符集。

iso8859-1字符集：属于单字节编码，最多能表示的字符范围是0-255，应用于英文系列。比如，字母'a'的编码为0x61=97。很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，以gb2312编码为例，应该是"d6d0 cec4"两个字符，使用iso8859-1编码的时候则将它拆开为4个字节来表示："d6 d0 ce c4"（事实上，在进行存储的时候，也是以字节为单位处理的）。而如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。很明显，这种表示方法还需要以另一种编码为基础。

GB2312字符集：用两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。

GBK字符集：由于GB2312还是不够用，后来干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号等。
Unicode字符集：Unicode 是基于通用字符集，它是用4个字节来表示一个字符，所以能把目前世界上所有的语言文字字符都表示出来。

字符编码（Character Encoding）

字符编码，是把字符集中所有的字符编码为某一集合中的指定对象，以便文本在计算机中存储或在网络中传输。

最初的ASCII编码，一个字节表示一个字符(0-127)，后来为了扩充ASCII编码，以用于显示本国的语言，不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码，又称为"MBCS（Muilti-Bytes Charecter Set，多字节字符集）"。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码，所以在中文 windows下要转码成gb2312,gbk只需要把文本保存为ANSI 编码即可。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。一个很大的缺点是，同一个编码值，在不同的编码体系里代表着不同的字。这样就容易造成混乱。所以unicode码诞生了。

其中每个语言下的ANSI编码，都有一套一对一的编码转换器，Unicode变成所有编码转换的中间介质。所有的编码都有一个转换器可以转换到Unicode，而Unicode也可以转换到其他所有的编码。

单字节编码：一个字节就表示一个字符，比如典型的ASCII码中的所有字符都是单字节编码的

双字节编码：需要用两个字节来表示一个字符的编码，比如汉字的GBK,GB2312编码

多字节编码：需要用多个字节来表示一个字符的编码，比如Unicode，UTF-8编码

常见的字符编码：ASCII编码，GBK，GB2312编码，Unicode编码

ASCII编码：使用7位（bits）表示一个字符，共128字符；但是7位编码的字符集只能支持128个字符，为了表示更多的欧洲常用字符对ASCII进行了扩展，ASCII扩展字符集使用8位（bits）表示一个字符，共256字符。
GBK、GB2312编码：是将两个字节连在一起表示一个字符，这两个字节分别叫高字节和低字节，GBK的编码中只要高字节代表的字符大于127就表示该字符为汉字，GB2312编码中必须两个字节所标识的字符都大于127才标识这个字符为汉字。

Unicode字符编码：它固定使用16 bits（两个字节）来表示一个字符，共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中，方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8(注意UTF-8是编码，它属于Unicode字符集)，使用类似MBCS的方式对Unicode进行编码。UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元。

UNICODE字符集有多个编码方式，分别是UTF-8，UTF-16，UTF-32和UTF-7编码。

UTF-8，考虑到unicode编码不兼容iso8859-1编码，而且容易占用更多的空间：因为对于英文字母，unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而产生了utf编码，utf编码兼容iso8859-1编码，同时也可以用来表示所有语言的字符，不过，utf编码是不定长编码，每一个字符的长度从1-6个字节不等。另外，utf编码自带简单的校验功能。一般来讲，英文字母都是用一个字节表示，而汉字使用三个字节。

注意，虽然说utf是为了使用更少的空间而使用的，但那只是相对于unicode编码来说，如果已经知道是汉字，则使用GB2312/GBK无疑是最节省的。不过另一方面，值得说明的是，虽然utf编码对汉字使用3个字节，但即使对于汉字网页，utf编码也会比unicode编码节省，因为网页中包含了很多的英文字符。UTF8编码后的大小是不一定,例如一个英文字母"a" 和　一个汉字 "好"，编码后占用的空间大小就不样了，前者是一个字节，后者是三个字节！编码的方法是从低位到高位。