utf-8中一个汉字等于三个字节,而char类型只占用两个字节,为什么汉字可以储存在char类型中?
Unicode是一种字符集,用两个字节就能囊括世界上许多文字集合;
而utf-8是一种编码方式,是Unicode的一种表现方式。
Java语言内部存储采用的Unicode编码,Unicode编码中的每个字符占两个字节,中文也是占两个字节。这两个字节的每一个编码都单独代表唯一一个字(就如ASCII码中65代表A,其编码为0100 0001,占一个字节)。Unicode只规定了字符的二进制代码,却没有规定这个二进制代码应该如何储存。一个字符的Unicode编码是确定的,而对于Unicode不同的编码实现方式,一个字符的表现形式也不同。
utf-8就是以8位为单位对Unicode进行编码,转换规则如下:
Unicode(16进制) | Unicode(二进制) | utf-8 |
0000-007F | 0000 0000 0000 0000 - 0000 0000 0111 1111 | 0xxxxxxx |
0080-07FF | 0000 0000 1000 0000 - 0000 0111 1111 1111 | 110xxxxx 10xxxxxx |
0800-FFFF | 0000 1000 0000 0000 - 1111 1111 1111 1111 | 1110xxxx 10xxxxxx 10xxxxxx |
不同的大小对应不用的编码方式。举一个例子,“中”字的Unicode编码是0x4E2D,它在0800-FFFF的范围内,所以采用三字节模板。将0x4E2D写成二进制:01001110 00101101,将这些比特按顺序填入转换格式中,就得到 11100100 10111000 10101101,对应的十六进制编码——E4B8AD。
上述只是utf-8的编码形式,不同的编码方式有不同的编码规则,在以字节读取的时候才会以编码方式(如utf-8)得到的编码形式展现出来。在内存中存储还是只占用两个字节的Unicode码。