众所周知在 Java 中,char 类型是可以储存汉字的,你可以以 char='人' 的方式对其进行赋值,也可以直接以指定编码进行赋值如:char = '\u4eba'。
能达到这种效果的原因是 Java 的 char 类型比较特殊,它是以 Unicode 编码对字符进行存储,即每个 char 类型有 16bit,这一点从允许直接使用 Unicode 码的形式给 char 类型赋值就可以得知。显然,Java 中的 char 类型以 UTF-16 规范进行编码。
注意:Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对 Unicode 编码的实现方式有所不同,具体由UTF(UCS Transformation Format)规范规定,常见的UTF规范包括UTF-8、UTF-16、UTF-32。
了解了这一点,我们再来看以下一段代码
public static void main(String[] args) {
String s = "人";
final byte[] bytes1 = s.getBytes(StandardCharsets.UTF_8);
System.out.println(bytes1.length);
final byte[] bytes2 = s.getBytes(StandardCharsets.UTF_16);
System.out.println(bytes2.length);
}
执行结果
3
4
为什么在实际测试中单字符以 UTF-8 的编码输出的是标准的三字节,以 UTF-16 编码输出的却不是预期的两字节而是四字节呢?
实际上,多出来的两个字节是因为在 Unicode 编码中,要特地指定字节序——即字节的顺序。大于一个字节的数据在内存中存放的的顺序有两种:大字节序 BIG-ENDIAN 和小字节序 LITTLE-ENDIAN。
传输协议中,需要先传一个标识,一个叫 “ZERO WIDTH NO-BREAK SPACE" 的字符,它的编码是 FEFF。而 FFFE 在 Unicode 中是不存在的字符,所以不应该出现在实际传输中。Unicode规范建议在传输字节流前,先传输字符 "ZERO WIDTH NO-BREAK SPACE"。这样就多出了两个字节。
经过实际测试我们可以明显发现在以 UTF-16 编码的字节数组中字节序的存在:
public static void main(String[] args) {
String s = "人";
final byte[] bytes1 = s.getBytes(StandardCharsets.UTF_16);
for (byte b : bytes1) {
System.out.print(b + " ");
}
System.out.println();
s = "人们";
final byte[] bytes2 = s.getBytes(StandardCharsets.UTF_16);
for (byte b : bytes2) {
System.out.print(b + " ");
}
}
-2 -1 78 -70
-2 -1 78 -70 78 -20
其中每行输出的起始两个数字 -2 -1 对应的正是以 8 位 bit 表示的 FE、FF。而 BIG-ENDIAN、LITTLE-ENDIAN 的说法也早在对应字符标准中被提及
/**
* Sixteen-bit UCS Transformation Format, big-endian byte order
*/
public static final Charset UTF_16BE = Charset.forName("UTF-16BE");
/**
* Sixteen-bit UCS Transformation Format, little-endian byte order
*/
public static final Charset UTF_16LE = Charset.forName("UTF-16LE");