Java char是什么
Java char 占 2 个字节,使用 UTF-16 表示一个字符。由于它只使用 2 个字节,所以 char 只用能表示部分UTF-16编码,即0x0000 ~ 0xFFFF。对于 4 字节的 UTF-16,需要使用 2 个 char。
UTF-8(Unicode Transformation Format - 8- bit)
- 使用 1 ~ 4 个字节变长编码表示「1,112,064」个 Unicode 码点
- 兼容 ASCII
- 码点数值越小,使用的字节数越少,出现的频率越高
Unicode
Unicode是一种字符集,是将我们认知中的许多事物转换成整数的对应集合
Unicode 只是一个符号集,它只规定了每个符号的二进制数,却没有规定这个二进制数应该如何存储。
在我们的认知种的事物 -> 字符集 -> 计算机存储,从我们的认知到字符集可以有两种对应方式ASCCII码和Unicode码。
在Java(其中主要包括在JVM中、内存中、在代码里声明的每一个char、String类型的变量中。)中字符只以一种形式存在,那就是Unicode,不选择任何特定的编码,直接使用它们在字符集中的编号,这是统一的唯一的方法。
在JVM内部,统一使用Unicode表示,当着字符从JVM内部移动到外部时(即保存为文件系统中的一个文件内容时),就进行了编码转换,使用了具体的编码方案。因此也可以说,所有的编码转换只发生在边界的地方,也就是各种输入/输出流的起作用的地方。