Java 中的 Unicode 编码

genius汪汪汪

已于 2022-11-04 15:48:26 修改

阅读量4k

点赞数 1

分类专栏： Android 文章标签： java jvm windows

于 2022-11-04 13:39:40 首次发布

本文链接：https://blog.csdn.net/geniushorse/article/details/127687135

版权

java 源文件（.java）和编译后的 .class 文件的编码并不一样。

源文件 .java 可以采用多种编码格式，如

之所以有（可以有）多种编码格式，是因为源文件毕竟是给「人」看的，不是给 jvm 看的，它用什么编码格式 jvm 根本就不关心。

当将源码用 javac 编译的时候，默认是 javac 按照系统默认的编码格式读取 java 源文件，然后以 utf-8 的格式输出到 .class 文件中。

换句话说，在默认情况下

所以，中文字符乱码的根本原因在于，你（有意或无意）没有使用默认编码规则存储 .java 文件，而 javac 却又是按照默认规则去读 .java 文件，这就出现了乱码。

例如，在 windows 平台下用 utf-8 格式保存 java 源文件，那么你在执行 javac 命令编译源文件时，你需要「告诉」javac 命令，你要编译的源文件的编码格式。否则，会有乱码问题。

在 Java 中一个字符串的长度并「不能」简单地、想当然的想象成是其中所有字符数的累加和！

以下内容来自 stackoverflow 中的总结和解释

A Java char takes always 16 bits.
A Unicode character, when encoded as UTF-16, takes “almost always” (not always) 16 bits: that’s because there are more than 64K unicode characters. Hence, a Java char is NOT a Unicode character (though “almost always” is).
“Almost always”, above, means the 64K first code points of Unicode, range 0x0000 to 0xFFF (BMP), which take 16 bits in the UTF-16 encoding.
A non-BMP (“rare”) Unicode character is represented as two Java chars (surrogate representation). T