中文化和国际化问题权威解析之二:Java国际化基础

27 篇文章 0 订阅
 

我们知道Unicode为国际化(I18n)提供了坚实的基础。但是Unicode不等同于国际化。使用UnicodeJava语言,若是使用不当,同样达不到国际化的目的。让我们来看一下Java是怎样处理Unicode的。

Java的字符类型

C语言不同,Java的字符类型char是一个16位长的整数,而C语言的char8位,等同于一个字节,只能表示单字节的字符(拉丁语系文字)。所以Java可以直接用一个char来表示一个Unicode字符(包括中文、英文、日文……),大大简化了字符和字符串的操作。

因为Java字符总是Unicode字符,所以在后文中,如果不加说明,字符char都是指16位的Unicode字符,而字节byte都是指8位字节。

编码(encoding

然而,当今多数计算机系统,都是以字节为存储运算的基本单元。这就使得在Java中,用Unicode表示的字符串无法直接写到文件中或保存到数据库中。必须以某一种方式,将字符串转换成便于传输和存储的字节流才行。这种将Unicode字符转换成字节的操作,就叫做字符编码encoding)。

前面说过Unicode有两种字节表示法:UTF-8UTF-16。所以将UnicodeUTF-8UTF-16编码是最直接和自然的事了。以上面的我爱Alibabaあいう为例,用Big-endian(高位字节在前,低位字节在后)的UTF-16编码,可以表示成:

我们也可以把同样的字符串转换成UTF-8UTF-8是变长的编码,对于ASCII码字符,不需要改变,就已经是UTF-8了,但一个中文要用三个字节来表示:

使用UTF-16UTF-8编码的数据,必须使用支持Unicode的软件来处理,例如支持Unicode的文本编辑器。目前存在的大量软件,不一定都支持Unicode。因此我们往往将Unicode转换成某一种本地字符集,例如:

  • 英文可转换成ISO-8859-1
  • 中文可转换成GB2312GBKBIG5或是GB18030等。
  • 日文可以转换成SJISISO-2022-JP等。
  • 韩文可以转换成ISO-2022-KR等。

本地字符集名目之多,无法全部列举。最重要是,大多数字符集只映射到Unicode中的部分字符,且字符集之间互相交错,互不兼容。

那么,如果在将Unicode转换到某一本地字符集时,发现这一编码字符集不包含这个字符,怎么办呢?例如:我爱Alibaba”这个字符串(简体中文),如果转换成繁体中文的BIG5编码,就会变成:?Alibaba”。原来,Unicode规定,转换时碰到看不懂的字符,一律用“?0x3F表示。

这就解释了一种常见的乱码情形:好端端的页面,显示在浏览器上却变成了无数个问号。原因就是Java在输出网页时,使用了错误的编码方式。后面将更详细地解释这个问题。

解码(decoding

同样的,如果我们要从文件或数据库中读取文本数据,因为我们读到的是一个字节流,所以我们需要使用正确的编码方法,将字节流恢复成字符流。这个操作叫做解码decoding)。

如果指定了错误的编码方法,那么就会得到不正确的字符流。和编码过程类似,Unicode规定,在解码时,发现看不懂的字节,一律用0xFFFD表示。例如:将我爱Alibaba”UTF-8的编码方式保存在一个文件中,用繁体中文编码BIG5读入,就会变成:�����libaba”。因为UTF-8字节序列E6 88 91 E7 88不是一个合法的BIG5编码序列,而第六个字节B1和后面一个字节41(原本是字母“A”)碰巧可以构成一个BIG5字符

反过来说,是不是经过解码的字符序列中,不包含问号“?”,就代表解码方法是正确的呢?显然不是!

最典型的错误就是:用ISO-8859-1来解码中文文件。这导致了更隐蔽的错误。因为ISO-8859-1的字符编码正好和Unicode的最前面256个字符相同,换句话说,在ISO-8859-1编码之前加上“00”就变成了Unicode。正是由于这个特殊性,ISO-8859-1似乎成了万能的编码而被广泛地误用!

仍以我爱Alibaba”为例,如果用ISO-8859-1解码此文件,我们可以得到一个看似合法的字符串:

很明显,使用ISO-8859-1解码中文文件的人,只是把Unicode字符看作是16位的字节而已。对Java而言,我爱这两个字符不代表中文字符我爱,只不过是4个欧洲字符和符号而已。

Java对国际化的支持
Java I/O

Java中,主要是通过输入输出流来进行编码和解码的。输入输出流分成两种:

字节流(Octet Stream

java.io.InputStreamjava.io.OutputStream派生的,负责读写字节(byte)。 例如:java.io.FileInputStreamjava.io.ByteArrayInputStream java.io.FileOutputStreamjava.io.ByteArrayOutputStream等。

字符流(Character Stream

java.io.Readerjava.io.Writer派生的,负责读写字符(char)。例如:java.io.StringReaderjava.io.StringWriter等。

而联系这两种流的,分别是OutputStreamWriterInputStreamReader。由这两个类来实现Java字符的编码和解码。

下面的完整的例子演示了Java如何把一个包含中文的字符串,以GBK编码的方式保存到一个文本文件中。

  1. import java.io.FileOutputStream;
  2. import java.io.IOException;
  3. import java.io.OutputStreamWriter;
  4. public class TestEncoding {
  5.     public static void main(String[] args) {
  6.         try {
  7.             writeStringToFile("我爱Alibaba""c:/ilovealibaba.txt""GBK");
  8.         } catch (IOException e) {
  9.             e.printStackTrace();
  10.         }
  11.     }
  12.     public static void writeStringToFile(String str, String filename,
  13.             String charset) throws IOException {
  14.         FileOutputStream ostream = new FileOutputStream(filename);
  15.         OutputStreamWriter writer = new OutputStreamWriter(ostream, charset);
  16.         try {
  17.             writer.write(str);
  18.         } finally {
  19.             writer.close();
  20.         }
  21.     }
  22. }

当然,除了输出到文件,事实上可以使用任何输出流,例如使用ByteArrayOutputStream将可将字节流保存在内存中。

下面的完整的例子演示了Java如何读取一个文件,并把文件的内容以GBK方式解码。

  1. import java.io.FileInputStream;
  2. import java.io.IOException;
  3. import java.io.InputStreamReader;
  4. public class TestDecoding {
  5.     public static void main(String[] args) {
  6.         try {
  7.             System.out
  8.                     .println(readStringFromFile("c:/ilovealibaba.txt""GBK"));
  9.         } catch (IOException e) {
  10.             e.printStackTrace();
  11.         }
  12.     }
  13.     public static String readStringFromFile(String filename, String charset)
  14.             throws IOException {
  15.         FileInputStream istream = new FileInputStream(filename);
  16.         InputStreamReader reader = new InputStreamReader(istream, charset);
  17.         StringBuffer string = new StringBuffer();
  18.         char[] buffer = new char[128];
  19.         int count = 0;
  20.         try {
  21.             while ((count = reader.read(buffer)) != -1) {
  22.                 string.append(buffer, 0, count);
  23.             }
  24.         } finally {
  25.             reader.close();
  26.         }
  27.         return string.toString();
  28.     }
  29. }

当然也可以从任何输入流中获得字节,然后用同样的方法转换成字符。例如,通过ByteArrayInputStream,可以从内存中的byte[]数组中取得字节流。

字符串处理

另一种常见的编码和解码的方法,是通过JavaString类完成的。下面的程序演示了Java如何使用String.getBytes()方法,将字符串编码成指定形式的字节的。

  1. import java.io.UnsupportedEncodingException;
  2. public class TestStringGetBytes {
  3.     public static void main(String[] args) {
  4.         try {
  5.             dumpBytes("我爱Alibaba""GBK");
  6.         } catch (UnsupportedEncodingException e) {
  7.             e.printStackTrace();
  8.         }
  9.     }
  10.     public static void dumpBytes(String str, String charset)
  11.             throws UnsupportedEncodingException {
  12.         byte[] bytes = str.getBytes(charset);
  13.         // 显示bytes的内容,每行显示4个
  14.         for (int i = 0; i < bytes.length; i++) {
  15.             System.out.print(Integer.toHexString(bytes[i] & 0xFF));
  16.             System.out.print(" ");
  17.             if ((i + 1) % 4 == 0) {
  18.                 System.out.println();
  19.             }
  20.         }
  21.         System.out.println();
  22.     }
  23. }

运行的结果为:

  1. ce d2 b0 ae
  2. 41 6c 69 62
  3. 61 62 61

下面的程序,使用String(bytes, charset)构造函数,也实现了读取一个文件的内容,并以指定编码方式(GBK)解码成字符串的功能。

  1. import java.io.ByteArrayOutputStream;
  2. import java.io.FileInputStream;
  3. import java.io.IOException;
  4. public class TestNewString {
  5.     public static void main(String[] args) {
  6.         try {
  7.             System.out.println(
  8.                     readStringFromFile("c:/ilovealibaba.txt""GBK"));
  9.         } catch (IOException e) {
  10.             e.printStackTrace();
  11.         }
  12.     }
  13.     public static String readStringFromFile(String filename, String charset) throws IOException {
  14.         FileInputStream istream = new FileInputStream(filename);
  15.         ByteArrayOutputStream ostream = new ByteArrayOutputStream();
  16.         byte[] buffer = new byte[128];
  17.         int count = 0;
  18.         try {
  19.             while ((count = istream.read(buffer)) != -1) {
  20.                 ostream.write(buffer, 0, count);
  21.             }
  22.         } finally {
  23.             istream.close();
  24.         }
  25.         byte[] stringBytes = ostream.toByteArray();
  26.         // 使用指定charset,将bytes[]转换成字符串
  27.         return new String(stringBytes, charset);
  28.     }
  29. }

注意:上面这段程序只是演示String(bytes, charset)构造函数,如果要读取大量的文本,这种方式的性能肯定不如前面使用InputStreamReader的程序示例。

其它和国际化相关的功能

java.util.ResourceBundle

通过ResourceBundle,我们可以把特定语言相关的信息放在程序之外。这样当我们要在已有产品的基础上,增加一种语言或地区的支持时,只需要增加一种ResourceBundle的实现即可。

数字、货币、日期、时间的格式化

中国人表示日期的习惯是:“2003524 星期六,而美国人则习惯于:“Saturday, May 24, 2003”Java程序代码可以不关心这些差别。在运行时刻,Java可以根据不同的语言或地区习惯,自动按不同的格式风格显示这些内容。

  1. import java.text.DateFormat;
  2. import java.util.Date;
  3. import java.util.Locale;
  4. public class TestDateFormat {
  5.     public static void main(String[] args) {
  6.         Date date = new Date();
  7.         System.out.println(DateFormat.getDateInstance(DateFormat.FULL, Locale.CHINA).format(date));
  8.         System.out.println(DateFormat.getDateInstance(DateFormat.FULL, Locale.US).format(date));
  9.     }
  10. }

除了DateFormatjava.text包中还包括了很多其它格式化类。

1.   NumberFormat

2.   DecimalFormat

3.   DateFormat

4.   SimpleDateFormat

5.   MessageFormat

6.   ChoiceFormat

检测字符属性

前文提到,Unicode不仅定义了统一的字符集,而且为这些字符及编码数据提出应用的方法以及对语义数据进行补充。而Java可以直接查看Unicode所定义的这些字符属性。

传统的非国际化的程序常常这样检测一个字符是否属于字母、数字还是空白:

  1. char ch;
  2. ...
  3. if ((ch >= 'a' && ch <= 'z') || (ch >= 'A' && ch <= 'Z')) {
  4.     // ch是一个字母
  5. }
  6. ...
  7. if (ch >= '0' && ch <= '9') {
  8.     // ch是一个数字
  9. }
  10. ...
  11. if ((ch == ' ') || (ch =='/r')  || (ch =='/n') || (ch == '/t')) {
  12.     // ch是一个空白
  13. }

这样的程序没有考虑除了英文和其它少数几种语言之外的语言习惯。例如:西腊字母“αβγ”也应该算是字母,汉字中全角数字123也是数字,全角空格 U+3000)也属于空白。正确的程序应该是这样的:

  1. char ch;
  2. ...
  3. if (Character.isLetter(ch)) {
  4. ...
  5. if (Character.isDigit(ch)) {
  6. ...
  7. if (Character.isSpaceChar(ch)) {
  8. ...

下面列出了Character中用来判定字符属性的方法:

1.   Character.isDigit

2.   Character.isLetter

3.   Character.isLetterOrDigit

4.   Character.isLowerCase

5.   Character.isUpperCase

6.   Character.isSpaceChar

7.   Character.isDefined

此外,Unicode还为每个统一字符定义了很多属性。我们可以通过Character相应方法取得这些属性。例如可以用下面的代码判定一个字符是否为中日韩统一汉字

  1. char ch;
  2. ...
  3. Character.UnicodeBlock block = Character.UnicodeBlock.of(ch);
  4. if (block == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS) {
  5.     // 是CJK统一汉字
  6. }

更多Character类细节请参阅Java API文档

字符串比较和排序

字符间的逻辑顺序不一定和Unicode编码的数值顺序一致。利用java.text.Collator可以比较两个Unicode字符串的逻辑顺序。

检测字符串的边界

在应用中,我们经常需要检测字符串的边界:检测字符(character)、词(word)、句子(sentence)、行(line)的边界。例如,显示一段文字,需要在屏幕的右边界处对文本断行。断行不是任意的。例如,你不能把一个英文单词拆开。

使用java.text.BreakIterator可以实现字符串边界的检测。

以上只是简单地列举了Java中和国际化相关的功能。具体描述这些内容,超出了本文的议题。可以从Java文档中取得更详细的信息:Java国际化指南

1JAVA SE 1.1深入JAVA API 1.1.1Lang包 1.1.1.1String类和StringBuffer类 位于java.lang包,这个包的类使用时不用导入 String类一旦初始化就不可以改变,而stringbuffer则可以。它用于封装内容可变的字符串。它可以使用tostring()转换成string字符串。 String x=”a”+4+”c”编译时等效于String x=new StringBuffer().append(“a”).append(4).append(“c”).toString(); 字符串常量是一种特殊的匿名对象,String s1=”hello”;String s2=”hello”;则s1==s2;因为他们指向同一个匿名对象。 如果String s1=new String(“hello”);String s2=new String(“hello”);则s1!=s2; /*逐行读取键盘输入,直到输入为“bye”时,结束程序 注:对于回车换行,在windows下面,有'\r'和'\n'两个,而unix下面只有'\n',但是写程序的时候都要把他区分开*/ public class readline { public static void main(String args[]) { String strInfo=null; int pos=0; byte[] buf=new byte[1024];//定义一个数组,存放换行前的各个字符 int ch=0; //存放读入的字符 system.out.println(“Please input a string:”); while(true) { try { ch=System.in.read(); //该方法每次读入一个字节的内容到ch变量。 } catch(Exception e) { } switch(ch) { case '\r': //回车时,不进行处理 break; case '\n': //换行时,将数组总的内容放进字符串 strInfo=new String(buf,0,pos); //该方法将数组从第0个开始,到第pos个结束存入字符串。 if(strInfo.equals("bye")) //如果该字符串内容为bye,则退出程序。 { return; } else //如果不为bye,则输出,并且竟pos置为0,准备下次存入。 { System.out.println(strInfo); pos=0; break; } default: buf[pos++]=(byte)ch; //如果不是回车,换行,则将读取的数据存入数组。 } } } } String类的常用成员方法 1、构造方法: String(byte[] byte,int offset,int length);这个在上面已经用到。 2、equalsIgnoreCase:忽略大小写的比较,上例如果您输入的是BYE,则不会退出,因为大小写不同,但是如果使用这个方法,则会退出。 3、indexOf(int ch);返回字符ch在字符串首次出现的位置 4、substring(int benginIndex); 5、substring(int beginIndex,int endIndex); 返回字符串的子字符串,4返回从benginindex位置开始到结束的子字符串,5返回beginindex和endindex-1之间的子字符串。 基本数据类型包装类的作用是:将基本的数据类型包装成对象。因为有些方法不可以直接处理基本数据类型,只能处理对象,例如vector的add方法,参数就只能是对象。这时就需要使用他们的包装类将他们包装成对象。 例:在屏幕上打印出一个*组成的矩形,矩形的宽度和高度通过启动程序时传递给main()方法的参数指定。 public class testInteger { public static void main(String[] args) //main()的参数是string类型的数组,用来做为长,宽时,要转换成整型。 { int w=new Integer(args[0]).intValue(); int h=Integer.parseInt(args[1]); //int h=Integer.valueOf(args[1]).intValue(); //以上为三种将字符串转换成整形的方法。 for(int i=0;i<h;i++) { StringBuffer sb=new StringBuffer(); //使用stringbuffer,是因为它是可追加的。 for(int j=0;j<w;j++) { sb.append('*'); } System.out.println(sb.toString()); //在打印之前,要将stringbuffer转化为string类型。 } } } 比较下面两段代码的执行效率: (1)String sb=new String(); For(int j=0;j<w;j++) { Sb=sb+’*’; } (2) StringBuffer sb=new StringBuffer(); For(int j=0;j<w;j++) { Sb.append(‘*’); } (1)和(2)在运行结果上相同,但效率相差很多。 (1)在每一次循环,都要先将string类型转换为stringbuffer类型,然后将‘*’追加进去,然后再调用tostring()方法,转换为string类型,效率很低。 (2)在没次循环,都只是调用原来的那个stringbuffer对象,没有创建新的对象,所以效率比较高。 1.1.1.2System类与Runtime类 由于java不支持全局函数和全局变量,所以java设计者将一些与系统相关的重要函数和变量放在system类。 我们不能直接创建runtime的实例,只能通过runtime.getruntime()静态方法来获得。 编程实例:在java程序启动一个windows记事本程序的运行实例,并在该运行实例打开该运行程序的源文件,启动的记事本程序5秒后关闭。 public class Property { public static void main(String[] args) { Process p=null; //java虚拟机启动的进程。 try { p=Runtime.getRuntime().exec("notepad.exe Property.java"); //启动记事本并且打开源文件。 Thread.sleep(5000); //持续5秒 p.destroy(); //关闭该进程 } catch(Exception ex) { ex.printStackTrace(); } } } 1.1.1.3Java语言两种异常的差别 Java提供了两类主要的异常:runtime exception和checked exception。所有的checked exception是从java.lang.Exception类衍生出来的,而runtime exception则是从java.lang.RuntimeException或java.lang.Error类衍生出来的。    它们的不同之处表现在两方面:机制上和逻辑上。    一、机制上    它们在机制上的不同表现在两点:1.如何定义方法;2. 如何处理抛出的异常。请看下面CheckedException的定义:    public class CheckedException extends Exception    {    public CheckedException() {}    public CheckedException( String message )    {    super( message );    }    }    以及一个使用exception的例子:    public class ExceptionalClass    {    public void method1()    throws CheckedException    {     // ... throw new CheckedException( “...出错了“ );    }    public void method2( String arg )    {     if( arg == null )     {      throw new NullPointerException( “method2的参数arg是null!” );     }    }    public void method3() throws CheckedException    {     method1();    }    }    你可能已经注意到了,两个方法method1()和method2()都会抛出exception,可是只有method1()做了声明。另外,method3()本身并不会抛出exception,可是它却声明会抛出CheckedException。在向你解释之前,让我们先来看看这个类的main()方法:    public static void main( String[] args )    {    ExceptionalClass example = new ExceptionalClass();    try    {    example.method1();    example.method3();    }    catch( CheckedException ex ) { } example.method2( null );    }    在main()方法,如果要调用method1(),你必须把这个调用放在try/catch程序块当,因为它会抛出Checked exception。    相比之下,当你调用method2()时,则不需要把它放在try/catch程序块当,因为它会抛出的exception不是checked exception,而是runtime exception。会抛出runtime exception的方法在定义时不必声明它会抛出exception。    现在,让我们再来看看method3()。它调用了method1()却没有把这个调用放在try/catch程序块当。它是通过声明它会抛出method1()会抛出的exception来避免这样做的。它没有捕获这个exception,而是把它传递下去。实际上main()方法也可以这样做,通过声明它会抛出Checked exception来避免使用try/catch程序块(当然我们反对这种做法)。    小结一下:    * Runtime exceptions:    在定义方法时不需要声明会抛出runtime exception;    在调用这个方法时不需要捕获这个runtime exception;    runtime exception是从java.lang.RuntimeException或java.lang.Error类衍生出来的。    * Checked exceptions:    定义方法时必须声明所有可能会抛出的checked exception;    在调用这个方法时,必须捕获它的checked exception,不然就得把它的exception传递下去;    checked exception是从java.lang.Exception类衍生出来的。    二、逻辑上    从逻辑的角度来说,checked exceptions和runtime exception是有不同的使用目的的。checked exception用来指示一种调用方能够直接处理的异常情况。而runtime exception则用来指示一种调用方本身无法处理或恢复的程序错误。    checked exception迫使你捕获它并处理这种异常情况。以java.net.URL类的构建器(constructor)为例,它的每一个构建器都会抛出MalformedURLException。MalformedURLException就是一种checked exception。设想一下,你有一个简单的程序,用来提示用户输入一个URL,然后通过这个URL去下载一个网页。如果用户输入的URL有错误,构建器就会抛出一个exception。既然这个exception是checked exception,你的程序就可以捕获它并正确处理:比如说提示用户重新输入。 
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值