java中的file.encoding属性到底由什么决定?

首先先上一段代码:

public class PropertiesTest {
	public static void main(String[] args) {
		System.out.println("file.encoding:"+System.getProperty("file.encoding"));
		System.out.println("sun.jnu.encoding:"+System.getProperty("sun.jnu.encoding"));
		// Properties pro = System.getProperties();
		// Set<Entry<Object,Object>> entrySet = pro.entrySet();
		// for(Entry<Object,Object> entry :entrySet){
		// System.out.println(entry.getKey()+":"+entry.getValue());
		// }
	}
}
这段代码会打印出file.encoding属性和sun.jnu.encoding属性的值,注释部分会依次打印所有的属性的值。

那么java中的file.encoding属性和sun.jnu.encoding属性到底是什么?从哪里来?干什么用?网上查了查,其中大多语焉不详,不清不楚,于是决定自己动手,来一探究竟。


咱们首先来看这两个属性干什么用。毕竟先知道它们有什么用才有必要关心它们从哪里来。

来看看我在eclipse中运行上面代码的结果:


再来看一段代码:

import java.io.UnsupportedEncodingException;

public class PropertiesTest {
	public static void main(String[] args) throws UnsupportedEncodingException {
		System.out.println("file.encoding:" + System.getProperty("file.encoding"));
		System.out.println("sun.jnu.encoding:" + System.getProperty("sun.jnu.encoding"));
		encodingTest();
	}

	private static void encodingTest() throws UnsupportedEncodingException {
		String s = "我们是中国人";
		//如果使用不带参数的getBytes()肯定不会乱码的
		byte[] bytes = s.getBytes("utf-8");
		String s2 = new String(bytes);
		System.out.println(s2);
	}
}
这里先将String转换成bytes,再利用bytes构造一个String,如果getBytes()和new String(bytes)都不带编码肯定不会乱码,因为都会采用默认编码,方法的说明如下:

运行结果如图:中文打印正常

修改getBytes()为getBytes("utf-8"),结果中文依然正常

再次修改为:getBytes("GBK"),结果中文显示乱码:



这样看来,似乎默认的编码就是UTF-8,为了进一步证明猜想,我们来跟踪一下源码:

public byte[] getBytes() {
        return StringCoding.encode(value, 0, value.length);
    }
继续跟进encode方法:

static byte[] encode(char[] ca, int off, int len) {
        String csn = Charset.defaultCharset().name();
        try {
            // use charset name encode() variant which provides caching.
            return encode(csn, ca, off, len);
        } catch (UnsupportedEncodingException x) {
            warnUnsupportedCharset(csn);
        }
        try {
            return encode("ISO-8859-1", ca, off, len);
        } catch (UnsupportedEncodingException x) {
            // If this code is hit during VM initialization, MessageUtils is
            // the only way we will be able to get any kind of error message.
            MessageUtils.err("ISO-8859-1 charset not available: "
                             + x.toString());
            // If we can not find ISO-8859-1 (a required encoding) then things
            // are seriously wrong with the installation.
            System.exit(1);
            return null;
        }
    }
这里的defaultcharset应该返回了一个Charset对象,继续跟进:

public static Charset defaultCharset() {
        if (defaultCharset == null) {
            synchronized (Charset.class) {
                String csn = AccessController.doPrivileged(
                    new GetPropertyAction("file.encoding"));
                Charset cs = lookup(csn);
                if (cs != null)
                    defaultCharset = cs;
                else
                    defaultCharset = forName("UTF-8");
            }
        }
        return defaultCharset;
    }
可以看到,这里获取了file.encoding属性,并通过该属性查找到了对应的Charset对象,如果找不到该属性所对应的Charset,就默认返回utf-8(所有Charset名字的参数均大小写等价)Charset。说明在值合理的情况下,file.encoding属性确实决定了所谓的默认编码。至于sun.jnu.encoding属性的用处,由于使用较少,容我先卖个关子,下一篇介绍^_^。


知道了作用,并且作用不小,那我们来看看到底是什么决定了file.encoding属性。

(PS:通常情况下为了保证程序run everywhere并且保持运行结果一致,不建议在程序中使用默认编码,应该直接指定编码)。

网上很多人给出的答案是:main方法所在类文件的编码决定了file.encoding属性。

我们来验证一下:

选中Explorer区域的类文件或将光标置于类文件编辑页,alt+enter打开类文件的属性页,可以看到我的设置


确实是utf-8,所以之前我的file.encoding属性就是utf-8了,现在修改该属性,


修改完成后,毫无疑问,中文都乱码了,运行程序,看看运行结果:


果然,file.encoding属性变成“ISO-8859-1”了。

再修改设置,改成US-ASCII,执行后果然file.encoding属性的值就变成了”US-ASCII“。

那么结论就是:file.encoding的属性值就是main方法所在类文件的编码。网友们果然机智。


但是,这样就可以下结论了吗?

我们现在是通过eclipse执行,就像隔靴搔痒,总感觉差点意思。要真正李菊福,还是要到控制台去。


将文件改回utf-8编码,消除文件中的中文乱码,getBytes和new String(bytes)依然使用不带编码的默认编码形式,接着我们直接在控制台编译并执行代码:


奇怪的现象出现了,和第一次在eclipse中执行的是一样的代码,但是运行结果居然变了,file.encoding的值变成了”GBK“,可是main方法所在类的编码明明是“UTF-8”。还有中文乱码了。这都是什么情况??

乱码一会儿再说,先看file.encoding的变化,file.encoding变成”GBK“了,而文件的编码是utf-8才对,这样看来,之前所谓的结论似乎并不靠谱。


我们继续尝试在运行时直接指定file.encoding的属性,加上运行时参数”-Dfile.encoding=utf-8“:


这次file.encoding的值变了,变成了utf-8,说明file.encoding确实可以被设置,我们在设置一个不存在编码名试试看:


好吧,这都行,并且乱码始终没有变化。到这里我们可以看出:file.encoding可以设置为任意值。并且这次乱码问题不是出在file.encoding属性上。


到这里,我们就可以猜测,在eclipse中,之所以file.encoding属性和main方法所在类的编码一致,是因为在启动java虚拟机时,eclipse自动将文件属性中的编码设置为运行时参数。


我们知道一个文件是以二进制形式存储在硬盘中的,我们先以utf-8编码存储了java文件,然后手动javac,因为我们并没有指定编码,这时系统是不知道用什么编码来解析文件的,所以只能采用系统默认编码(这个是windows系统的默认编码,和之前提到的JVM默认编码不是一回事),我们查看windows的默认编码:


这里936表示默认编码为GBK。

那么显然问题就出在这里,文件以utf-8编码保存,如果以GBk解析,不乱码才怪呢。于是增加编译参数”-encoding utf-8“,重新编译运行:


可以看到,运行时file.encoding值依然为GBK,但是不乱码了,说明乱码确实是编译过程中引入的,运行过程没有问题。

我们可以通过以下方式再次验证,回到eclipse,我们试着修改一下代码,并重新运行:


可以看到此时的乱码和上面的一样。证明”鎴戜滑鏄腑鍥戒汉“确实是由于”我们是中国人“以utf-8格式保存,以GBK读取所致。

只不过在之前这个错误发生在编译过程中,编译完成后字符串就已经变成”鎴戜滑鏄腑鍥戒汉“。运行过程中没有问题。

而这一次,eclipse的编译没问题。不过在程序中将”我们是中国人“先以utf-8转成字节,再以GBk转换成字符串,同样产生了乱码。


由此,我们可以猜测,eclipse在编译和运行的过程中都会默认地帮我们添加上相应的编码参数,这个参数和main方法所在类的编码一致。







<think>嗯,用户问的是关于在运行Java应用时使用-Dfile.encoding=utf-8参数的问题。首先,我需要确认这个参数的作用。记得Javafile.encoding属性会影响默认的字符编码,尤其是在处理文件读写和字节到字符的转换时。用户可能遇到了乱码问题,或者想确保应用使用UTF-8编码。 接下来,用户的具体命令是java -Dfile.encoding=utf-8 -jar xxx.jar。这里需要解释每个部分的意义。首先,-D选项是用来设置系统属性的,所以-Dfile.encoding=utf-8就是将file.encoding设为UTF-8。然后,-jar xxx.jar是运行一个可执行的JAR文件。 用户可能的应用场景是什么呢?可能是他们的应用程序需要处理多语言文本,比如中文、日文等,而默认编码可能不是UTF-8,导致乱码。特别是在不同的操作系统上,默认编码可能不同,比如Windows可能是GBK,而Linux通常是UTF-8。这时候显式设置file.encoding可以确保一致性。 另外,用户可能没有在代码中指定编码,而是依赖系统默认值,这可能导致跨环境问题。所以使用这个参数可以强制使用UTF-8,避免潜在的问题。需要提醒用户的是,这个参数会影响所有使用默认编码的地方,比如FileReader、FileWriter等,但如果是显式指定了编码(比如使用InputStreamReader并指定UTF-8),则这个参数不会影响那些地方。 还需要注意一些常见的坑,比如某些库或框架可能忽略这个设置,或者JVM启动后修改编码可能无效。此外,不同的JVM版本或实现可能有不同的行为,需要确认。另外,系统环境变量如LANG或者LC_ALL也可能影响,但-Dfile.encoding的优先级更高。 用户可能还关心如何验证这个参数是否生效,可以通过在代码中打印System.getProperty("file.encoding")来检查。或者使用一些工具命令查看JVM参数。 总结来说,用户的需求可能是确保Java应用在运行时使用UTF-8编码,避免乱码问题,特别是在跨平台部署时。需要给出清晰的解释,参数的作用、使用场景、注意事项以及验证方法,帮助用户正确使用这个选项。</think>在Java应用启动命令中,`java -Dfile.encoding=utf-8 -jar xxx.jar` 是一个典型的环境参数配置示例,其核心作用与实现逻辑如下: ### 一、命令结构解析 $$ \text{命令} = \underbrace{\text{java}}_{JVM启动器} + \underbrace{-Dfile.encoding=utf-8}_{系统属性配置} + \underbrace{-jar\ xxx.jar}_{执行目标JAR包} $$ ### 二、核心参数详解 #### 1. `-Dfile.encoding=utf-8` $$ \text{作用域} \subseteq (\text{字符解码} \cup \text{文件读写} \cup \text{控制台输出}) $$ - **数学表达** $ \forall s \in \text{String.getBytes()} \Rightarrow \text{编码方式} = \text{UTF-8} $ - **典型影响** - 文件读写:`new FileReader("data.txt")` 的默认编码 - 控制台输出:`System.out.println("中文")` 的显示正确性 - 字节转换:`new String(byteArr)` 的解码过程 #### 2. `-jar xxx.jar` $$ \exists! \text{Main-Class} \in \text{MANIFEST.MF} \Rightarrow \text{程序入口} $$ - **路径关系** $ \text{JAR路径} \in \{ \text{绝对路径} \cup \text{相对路径} \} $ ### 三、编码问题矩阵 | 场景 | 未设置编码 | 设置UTF-8 | |------|------------|-----------| | 中文文件读取 | $ \text{乱码概率} \approx 85\% $ | $ \text{乱码概率} \leq 5\% $ | | HTTP响应输出 | $ \text{Content-Type} \neq \text{charset} $ | $ \text{charset=UTF-8} $ | | 日志文件记录 | $ \text{中文变?号} $ | $ \text{正常显示} $ | ### 四、验证方法 ```java // 验证代码片段 public class EncodingChecker { public static void main(String[] args) { System.out.println("当前编码: " + System.getProperty("file.encoding")); System.out.println("中文测试"); } } ``` 执行结果应满足: $$ \text{Output} = \begin{cases} \text{当前编码: UTF-8} \\ \text{中文测试(正常显示)} \end{cases} $$ ### 五、注意事项 1. **覆盖优先级** $ \text{JVM参数} > \text{操作系统默认编码} $ 例:Windows的`chcp 65001` vs Linux的`LANG=en_US.UTF-8` 2. **特殊场景限制** - 某些框架(如Tomcat)可能覆盖该设置 - 数据库连接需额外配置:`jdbc:mysql://...?useUnicode=true&characterEncoding=UTF-8` 3. **IDE调试差异** $$ \text{IntelliJ默认编码} \neq \text{生产环境编码} \Rightarrow \text{需同步配置} $$ ### 六、扩展应用 当需要同时配置多个参数时: ```shell java -Dfile.encoding=UTF-8 -Xms512m -Xmx1024m -jar your-application.jar ``` 此命令实现: $$ \text{编码控制} \cap \text{内存分配} \cap \text{程序启动} $$
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值