关于file.encoding的设置

最新推荐文章于 2024-06-17 15:26:19 发布

raintungli

最新推荐文章于 2024-06-17 15:26:19 发布

阅读量1.6w

点赞数

分类专栏： JVM 源码分析 JVM 源码分析文章标签： string java byte properties jvm 多线程

本文链接：https://blog.csdn.net/raintungli/article/details/6651076

版权

JVM 源码分析同时被 2 个专栏收录

57 篇文章 23 订阅

订阅专栏

JVM 源码分析

55 篇文章 15 订阅

订阅专栏

昨天有人在讨论关于设置System的property,file.encoding 修改defaultcharset无效

Properties pps=System.getProperties();
pps.setProperty("file.encoding","ISO-8859-1");

在java中，如果没有指定charset的时候，比如new String(byte[] bytes),都会调用Charset.defaultCharset()的方法

public static Charset defaultCharset() {
        if (defaultCharset == null) {
	    synchronized (Charset.class) {
		java.security.PrivilegedAction pa =
		    new GetPropertyAction("file.encoding");
		String csn = (String)AccessController.doPrivileged(pa);
		Charset cs = lookup(csn);
		if (cs != null)
		    defaultCharset = cs;
                else 
		    defaultCharset = forName("UTF-8");
            }
	}
	return defaultCharset;
    }

我们可以清楚的看到defaultCharset是只能被初始化一次，这里还是有点小问题的，在多线程并发调用的时候还是会初始话多次，当然后面都是从cache（lookup的函数）里读出来的，问题也不大。

当我们在改变System.getProperties里的file.encoding 的时候，defaultCharset已经被初始化过了，所以不会在调用初始话的代码。

当jvm 启动的时候，load class, 最后调用main函数之前，defaultCharset已经初始化好，而很多函数里都掉用了这个方法象String.getBytes, 还有 InputStreamReader， InputStreamWriter 都是调用了 Charset.defaultCharset()的方法，就不去追查谁先调用了defaultCharset。

对defaultCharset,在jvm里的语言就是初始话在启动的时候，而且不可被更改，你只能修改系统的charset,或者jvm的启动参数里加上 -Dfile.encoding="UTF-8"

题外话

在java里面String是使用char数组来表示，而java的char和c的char是不同的，java的char是双字节的, 而c 里面的char单字节，等同于java byte

也就是说我们在转化byte 到string的时候，是根据charset decode转化成char，而我们在调用println,write string的时候，还是要把char最后encode成byte 输出到控制台，或者文件中。

而在最后调用c函数write 的时候，如果是java 的byte数组，还要转化成c 里的char数组

(*env)->GetByteArrayRegion(env, bytes, off, len, (jbyte *)buf);

raintungli

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
关于file.encoding的设置

昨天有人在讨论关于设置System的property,file.encoding 修改defaultcharset无效Properties pps=System.getProperties();pps.setProperty("file.encoding","ISO-885
复制链接

扫一扫

专栏目录