为什么JAVA的char类型只占用两个字节，采用utf-8编码时却可以储存汉字？

本文链接：https://blog.csdn.net/YX_Swag/article/details/121430559

utf-8中一个汉字等于三个字节，而char类型只占用两个字节，为什么汉字可以储存在char类型中？

Unicode是一种字符集，用两个字节就能囊括世界上许多文字集合；

而utf-8是一种编码方式，是Unicode的一种表现方式。

Java语言内部存储采用的Unicode编码，Unicode编码中的每个字符占两个字节，中文也是占两个字节。这两个字节的每一个编码都单独代表唯一一个字（就如ASCII码中65代表A，其编码为0100 0001，占一个字节）。Unicode只规定了字符的二进制代码，却没有规定这个二进制代码应该如何储存。一个字符的Unicode编码是确定的，而对于Unicode不同的编码实现方式，一个字符的表现形式也不同。

utf-8就是以8位为单位对Unicode进行编码，转换规则如下：

Unicode（16进制）	Unicode（二进制）	utf-8
0000-007F	0000 0000 0000 0000 - 0000 0000 0111 1111	0xxxxxxx
0080-07FF	0000 0000 1000 0000 - 0000 0111 1111 1111	110xxxxx 10xxxxxx
0800-FFFF	0000 1000 0000 0000 - 1111 1111 1111 1111	1110xxxx 10xxxxxx 10xxxxxx

不同的大小对应不用的编码方式。举一个例子，“中”字的Unicode编码是0x4E2D，它在0800-FFFF的范围内，所以采用三字节模板。将0x4E2D写成二进制：01001110 00101101，将这些比特按顺序填入转换格式中，就得到 11100100 10111000 10101101，对应的十六进制编码——E4B8AD。

上述只是utf-8的编码形式，不同的编码方式有不同的编码规则，在以字节读取的时候才会以编码方式（如utf-8）得到的编码形式展现出来。在内存中存储还是只占用两个字节的Unicode码。