Java 中的 Unicode 编码

1. .java 文件和 .class 文件的字符编码

java 源文件<small>(.java)</small>和编译后的 .class 文件的编码并不一样。

源文件 .java 可以采用多种编码格式,如

  • UTF-8<small>(unix linux 平台默认)</small>。或者
  • GBK<small>(windows 平台默认)</small>。

之所以有<small>(可以有)</small>多种编码格式,是因为源文件毕竟是给「」看的,不是给 jvm 看的,它用什么编码格式 jvm 根本就不关心。

当将源码用 javac 编译的时候,默认是 javac 按照系统默认的编码格式读取 java 源文件,然后以 utf-8 的格式输出到 .class 文件中。

换句话说,在默认情况下

  • unix 平台,javac 用 utf-8 格式读取 java 源文件 然后以 utf-8 格式写 .class;

  • 在默认情况下 windows 平台,javac 用 gbk 格式读取 java 源文件然后以 utf-8 格式写 .class 。

所以,中文字符乱码的根本原因在于,你<small>(有意或无意)</small>没有使用默认编码规则存储 .java 文件,而 javac 却又是按照默认规则去读 .java 文件,这就出现了乱码。

例如, 在 windows 平台下用 utf-8 格式保存 java 源文件, 那么你在执行 javac 命令编译源文件时,你需要「告诉」javac 命令,你要编译的源文件的编码格式。否则,会有乱码问题。

2. Java 中字符串的长度

在 Java 中一个字符串的长度并「不能」简单地、想当然的想象成是其中所有字符数的累加和!

以下内容来自 stackoverflow 中的总结和解释

  • A Java char takes always 16 bits.

  • A Unicode character, when encoded as UTF-16, takes “almost always” (not always) 16 bits: that’s because there are more than 64K unicode characters. Hence, a Java char is NOT a Unicode character (though “almost always” is).

  • “Almost always”, above, means the 64K first code points of Unicode, range 0x0000 to 0xFFF (BMP), which take 16 bits in the UTF-16 encoding.

  • A non-BMP (“rare”) Unicode character is represented as two Java chars (surrogate representation). T

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值