Java有一个default character encoding,它用于未明确提供字符编码的上下文中.有关如何选择编码的文档含糊不清:
The default charset is determined during virtual-machine startup and typically depends upon the locale and charset of the underlying operating system.
该文档必须含糊,因为JVM使用的方法是系统特定的.
使用默认字符编码通常为a bad idea;最好使用明确指示的编码,或者始终对某些I / O使用相同的编码.但是,默认字符编码的一种不可避免的用法似乎是用于命令行参数的字符编码.在诸如Linux的POSIX系统上,JVM的本机(C/C++)代码获取命令行参数作为C/C++字符指针的空终止列表.应该将其视为字节指针,因为它们必须对some (unclear) manner中的代码点进行编码.JVM必须解释这些C/C++字符(字节)序列,以将其转换为Java字符序列,并赋予它们. Java程序的main().我假设JVM为此使用默认字符编码.
因此,我需要精确地了解JVM如何确定特定系统(现代GNU / Linux操作系统)的默认编码,以便为用户提供有关程序运行方式的文档,以便程序用户可以预测其运行方式表现.
我猜JVM会检查一些环境变量,但是哪些?
解决方法:
您当然可以查看java.nio.charset.Charset.defaultCharset()的源代码.当我在系统上(带有Oracle JDK 8更新25的64位Windows 7)执行此操作时,会看到以下信息:
public static Charset defaultCharset() {
if (defaultCharset == null) {
synchronized (Charset.class) {
String csn = AccessController.doPrivileged(
new GetPropertyAction("file.encoding"));
Charset cs = lookup(csn);
if (cs != null)
defaultCharset = cs;
else
defaultCharset = forName("UTF-8");
}
}
return defaultCharset;
}
换句话说,它查看系统属性file.encoding,如果找不到匹配的Charset实例,则使用UTF-8.
标签:java,linux,character-encoding,environment
来源: https://codeday.me/bug/20191012/1901464.html