Java中文处理学习笔记

最新推荐文章于 2024-02-27 21:55:59 发布

manud

最新推荐文章于 2024-02-27 21:55:59 发布

阅读量731

点赞数

文章标签： java jvm stream properties character byte

1、操作系统语言环境设置对Java应用缺省编码方式的影响
为了了解Java应用的编码处理的机制，首先要了解操作系统对JVM缺省编码方式的影响，因此我做了一个 Env.java，用于打印显示不同系统下JVM的属性和系统支持的LOCALE。程序很简单：
import java.util.*;
import java.text.*;
/**
* 目的：
*     显示环境变量和JVM的缺省属性
* 输入：无
* 输出：
*     1 支持的LOCALE
*     2 JVM的缺省属性
*/
public class Env {
    /**
     * main entrance
     */
    public static void main(String[] args) {
        System.out.println("Hello, it's: " + new Date());
        //print available locales
        Locale list[] = DateFormat.getAvailableLocales();
        System.out.println("======System available locales:======== ");
        for (int i = 0; i < list.length; i++) {
            System.out.println(list[i].toString() + "/t" + list[i].getDisplayName());
        }
        //print JVM default properties
        System.out.println("======System property======== ");
        System.getProperties().list(System.out);
    }
}

最需要注意的是JVM的file.encoding属性，这个属性确定了JVM的缺省的编码/解码方式：从而影响应用中所有字节流==>字符流的解码方式，字符流==>字节流的编码方式。

结论1：
JVM的缺省编码方式由系统的“本地语言环境”设置确定，和操作系统的类型无关。所以当设置成相同的LOCALE时，Linux和Windows下的缺省编码方式是没有区别的（可以认为cp1252=ISO-8859-1都是一样的西文编码方式，只包含255以下的拉丁字符），因此后面的测试2我只列出了GNU/Linux下LOCALE分别设置成zh_CN和en_US的测试结果输出。以下测试如果在Windows下分别按照不同的区域和字符集设置后试验的输出是一样的。

2、Java的输入输出过程中的字节流到字符流的转换过程
通过这个HelloUnicode.java程序，演示说明"Hello world 世界你好"这个字符串（16个字符）在不同缺省系统编码方式下的处理效果。在编码/解码的每个步骤之后，都打印出了相应字符串每个字符(Charactor)的byte值，short值和所在的UNICODE区间。
一些结论：

所有的应用都是按照字节流=>字符流=>字节流方式进行的处理的：
byte_stream ==[input decoding]==> unicode_char_stream ==[output encoding]==> byte_stream；
在Java字节流到字符流（或者反之）都是含有隐含的解码处理的（缺省是按照系统缺省编码方式）；
最早的字节流解码过程从javac的代码编译就开始了；
Java中的字符character存储单位是双字节的UNICODE；