字符编码(转)

最新推荐文章于 2023-08-25 10:50:14 发布

wadeyi

最新推荐文章于 2023-08-25 10:50:14 发布

阅读量229

点赞数

文章标签： C C++ C# 数据结构

计算机只有数字，计算机软件里的一切都是用数字来表示的，屏幕上显示的一个个字符也不例外。

字符a对应数字97，字符b对应数字98等，这种字符与数字对应的编码规则被称为ASCII（美国标准信息交换码）。ASCII的最高bit位都为0,也就是说这些数字都在0到127之间。

中国大陆将每一个中文字符都用两个字节的数字来表示，中文字符的每个字节的最高位都为1，中国大陆为每个中文字符制定的编码规则称为GB2312(国标码)。

在GB2312的基础上，对更多的中文字符（包括繁体）进行了编码，新的编码规则称为GBK。

在中国大陆使用的计算机系统上，GBK和GB2312就被称为该系统的本地字符集。

“中国”的“中”字，在中国大陆的编码是十六进制的D6DO，而在中国台湾的编码是十六进制的A4A4，台湾地区对中文字符集的编码规则称为BIG5（大五码）。

在一个国家的本地化系统中出现的一个字符，通过电子邮件传送到另外一个国家的本地化系统中，看到的就不是那个字符了，而是另个那个国家的一个字符或乱码。

Unicode编码（是一种全球通用的字符编码）

ISO（国际标准化组织）将全世界所有的符号进行了统一编码，称之为Unicode编码。

“中”这个符号，在全世界的任何角落始终对应的都是一个十六进制的数字4E2D。

如果所用的计算机系统都使用Unicode编码，在中国大陆的本地化系统中显示的“中”这个符号，发送到伊拉克的本地化系统中，显示的仍然是“中“这个符号。

Unicode编码的字符都占用两个字节的大小，对于ASCII码所表示的字符，只是简单地在ASCII码原来占用的一个字节前面，增加一个所有bit为0的字节。

Unicode只占用两个字节，在全世界范围内所表示的字符个数不会超过2的16次方（65536），实际上，Unicode编码中还保留了两千多个数值没有用于字符编码。

在相当长的一段时期内，本地化字符编码将与Unicode编码共存。

Java中的字符使用的都是Unicode编码，Java在通过Unicode保证跨平台特性的前提下，也支持本地平台字符集。

UTF-8编码

ASCII码字符保持原样，仍然只占用一个字节，对于其它国家的字符，UTF-8使用两个或三个字节来表示。使用UTF-8编码的文件，通常都要用EF BB BF作为文件开头的三个字节数据。

字符的UTF-8编码与Unicode编码之间的转换关系对应下列规则：
      - \u0001和\u007f之间的字符，UTF-8编码为：(byte)c.
      - \u0000或其范围在\u0080和\u07ff之间的字符，UTF-8编码为：
              (byte)(0xc0|(0x1f&(c>>6))),(byte)(0x80|(0x3f&c)).
      - \u0800和\uffff之间的字符，UTF-8编码为：
              (byte)(0xe0|0x0f&(c>>12)))),(byte)(0x80|(0x3f&(c>>6))),(byte)(0x80|(0x3f&c))

从上图可以看出，应用程序软件很容易根据UTF-8编码中那些固定不变的比特值来确定一个字符占用的是一个字节呢，还是两个或是三个字节的，如果一个字节的第一个比特位为“0”，那么说明这个字符只占用一个字节；如果一个字节的前三个比特为“110”，这说明这个字符占用两个字节；如果一个字节的前四个比特为“1110”，这说明这个字符占用三个字节。对于需要二个或三个字节表示的UTF-8字符，它们的第二个和第三个字节的前两个比特位总是“10”。这样很容易与UTF-8中只占用一个字节的字符相区分，非常便于应用程序检测数据在传输过程中是不是发生了错误。

相对Unicode编码，UTF-8有一些显著的优点：