Java中的encoding以及reader API

最新推荐文章于 2024-04-17 11:26:17 发布

froghui

最新推荐文章于 2024-04-17 11:26:17 发布

阅读量1.2k

点赞数

分类专栏： java 文章标签： encoding java

本文链接：https://blog.csdn.net/froghui/article/details/39642123

版权

java 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

我们知道，Unicode是现在包含所有语言字符的编码方式，但是在日常学习和开发中，我们还是会接触到其他不同的encoding，比如GB18030, ISO-8859-1等。那么对于不同的encoding，Java读取文件时候是怎么样处理的呢？

首先，JVM有个属性设置default encoding，JVM在没有指定encoding的情况下会使用default encoding进行IO操作。

在eclipse里面，可以在Properties一栏对单个Java文件或者整个项目进行Text file encoding的设置。这个设置，一方面告诉eclipse当前Java文件的encoding以便进行compile；另一方面也是启动JVM以后的IO操作等的 default encoding。

可以用如下方法得到default encoding:

		Charset def = Charset.defaultCharset();
		System.out.println("defaultCharset == "+def);

defaultCharset == ISO-8859-1

可以在JVM启动的时候加上参数告诉JVM default encoding是什么，方法是 –Dfile.encoding = XXXX

当JVM以default encoding启动程序后，根据文件本身的encoding和default encoding会产生多种结果，如下表 (注：这里的文件内容都是不超过ASCII的 codepoint，所以除了UTF 8 with BOM的文件多了BOM头，其他的内容都相同；因为如果有非ASCII的字符出现，根据编码的规则，不同encoding读取肯定有问题)

default(file) encoding	ASCII 文件	UTF8 文件	UTF 8 with BOM 文件
UTF8	OK	OK	OK, read (EF BB BF) 后面parse有可能引起问题
GB18030	OK	OK	Exception defaultCharset == GB18030 sun.io.MalformedInputException at sun.io.ByteToCharGB18030.convert(ByteToCharGB18030.java:171) at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:314) at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:364) at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:250) at java.io.InputStreamReader.read(InputStreamReader.java:212) at java.io.BufferedReader.fill(BufferedReader.java:157) at java.io.BufferedReader.readLine(BufferedReader.java:320) at java.io.BufferedReader.readLine(BufferedReader.java:383) at TestRead.main(TestRead.java:35)
ISO-8859-1	OK	OK	Can read, but read wrongly (EF BB BF)  (C3 AF C2 BB C2 BF)

所以，读UTF8 with BOM必须声明为UTF8的encoding，并且对读到的BOM头EF BB BF自行进行处理。因为Java本身(1.6之前)并不会忽略掉BOM
See: (http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4508058) UTF-8 encoding does not recognize initial BOM

Question 1: 在ISO-8859-1的情况下读UTF8 with BOM，发现readline（）会读成(EF BB BF) ->
(C3 AF C2 BB C2 BF)，但是用read() 却可以读出前三个char: EF BB BF。事实上，这两个函数都会调用InputStream的read 方法，也就是有decode产生

default(file) encoding	Readline()	Read()
UTF8	OK read (EF BB BF) 后面parse有可能引起问题	OK, read the three bytes of BOM: EF BB BF
GB18030	Exception defaultCharset == GB18030 sun.io.MalformedInputException at sun.io.ByteToCharGB18030.convert(ByteToCharGB18030.java:171) at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:314) at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:364) at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:250) at java.io.InputStreamReader.read(InputStreamReader.java:212) at java.io.BufferedReader.fill(BufferedReader.java:157) at java.io.BufferedReader.readLine(BufferedReader.java:320) at java.io.BufferedReader.readLine(BufferedReader.java:383) at TestRead.main(TestRead.java:35)	Exception defaultCharset == GB18030 sun.io.MalformedInputException at sun.io.ByteToCharGB18030.convert(ByteToCharGB18030.java:171) at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:314) at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:364) at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:250) at java.io.InputStreamReader.read(InputStreamReader.java:212) at java.io.BufferedReader.fill(BufferedReader.java:157) at java.io.BufferedReader.readLine(BufferedReader.java:320) at java.io.BufferedReader.readLine(BufferedReader.java:383) at TestRead.main(TestRead.java:35)
ISO-8859-1	Can read, but read wrongly (EF BB BF) -> (C3 AF C2 BB C2 BF)	OK, read the three bytes of BOM: EF BB BF