字符集解析

最新推荐文章于 2023-05-08 20:57:31 发布

MardenSSS

最新推荐文章于 2023-05-08 20:57:31 发布

阅读量183

点赞数 1

分类专栏： Java 文章标签：字符集

本文链接：https://blog.csdn.net/m0_37671741/article/details/96458080

版权

Java 专栏收录该内容

30 篇文章 0 订阅

订阅专栏

一、字节与字符

字节：

这个是最基本的概念了，字节是计算存储容量的一种计量单位。我们知道计算机只能识别1和0组成的二进制位。一个数就是1位（bit），为了方便计算，我们规定8位就是一个字节。

例如：00001111 这个8位二进制数就占了一个字节的存储容量。

字符：

字符和字节不太一样，任何一个文字或符号都是一个字符，但所占字节不一定，不同的编码导致一个字符所占的内存不同。

例如：标点符号+是一个字符，汉字我们是两个字符，在GBK编码中一个汉字占2个字节，在UTF-8编码中一个汉字占3个字节。

二、字符集的发展

ASCII码

ASCII码，是最早产生的编码规范，一共包含00000000~01111111共128个字符，可以表示阿拉伯数字和大小写英文字母，以及一些简单的符号。其中a表示为97，A表示为65。

GBK

GBK字符集中所有字符占2个字节，不论中文英文都是2个字节。 没有特殊的编码方式，习惯称呼GBK 编码。一般在国内，汉字较多时使用。GBK编码专门用来解决中文编码的，是双字节的。不论中英文都是双字节的。（针对中国）

Unicode

世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的编码方式不一样。可以想象，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表示的，这是一种所有符号的编码。

Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样。Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

Unicode不完美：

1.英文字母只用一个字节表示就够了，如果unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。

2.第一个问题是，如何才能区别unicode和ascii？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？

UTF-8

互联网的普及，强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32，不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一。UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

三、编码与解码

解码：

一串二进制数，使用一种编码方式，转换成字符，这个过程我们称之为解码。就像解开密码一样，程序员可以选用任意的编码方式进行解码，但往往只有一种编码方式可以解开密码显示出正确的文字，而使用错误的编码方式，产生其他不合理的字符，这就是我们通常说的————乱码！

编码：

一串已经解码后的字符，我们也可以选用任意类型的编码方式重新转换成一串二进制数，这个过程就是编码，我们也可以称之为加密过程，无论使用哪一种编码方式进行编码，最终都是产生计算机可识别的二进制数，但如果编码规范的字库表不包含目标字符，则无法在字符集中找到对应的二进制数。这将导致不可逆的乱码！例如：像ISO-8859-1的字库表中不包含中文，因此哪怕将中文字符使用ISO-8859-1进行编码，再使用ISO-8859-1进行解码，也无法显示出正确的中文字符。

以上，大家就能明白了，乱码就是编码和解码使用的编码方式不一致，或者编码时其字库表中不包含相应字符所导致的结果