Java 读取中文的乱码问题

最新推荐文章于 2024-06-29 03:42:22 发布

bincavin

最新推荐文章于 2024-06-29 03:42:22 发布

阅读量789

点赞数

分类专栏： encoding 文章标签： java byte eclipse string 浏览器 encoding

encoding 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近在解析一堆文件，有gbk的，有UTF-8的，处理过程中碰到了乱码问题，相信很多做过相关工作的人都有类似经历。

***************************** 我是分割线**************************************

补充一个很好的Link，关于Java的中文编码：

http://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/index.html

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

GBK包含全部中文字符；UTF-8则包含全世界所有国家需要用到的字符。

GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准（好像还不是国家标准）
UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。
比如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，而无需他们下载IE的中文语言支持包。 所以，对于英文比较多的论坛 ，使用GBK则每个字符占用2个字节，而使用UTF－8英文却只占一个字节。

UTF8是国际编码，它的通用性比较好，外国人也可以浏览论坛，GBK是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBK大~字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，他们无需下载IE的中文语言支持包。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

和中文编码相关的有几个地方：
1. 原始文件的编码（Input的编码）
2. 希望输出的编码（Output的编码）
3. Eclipse的默认字符集编码（项目->右键Properties->Text file encoding）

文件本质上是一个字节流：
    file: Byte1 Byte2 Byte3 Byte4 Byte5 ....
但是Java中的String的基本单元是Char:
    String: Char1 Char2 Char3 Char4 ....
所以在Java读取文件的时候，存在着一个将Byte转换成Char的过程：
    (Byte1 Byte2) (Byte3) (Byte4 Byte5) ....
        Char1      Char2      Char3 ...

从Byte到Char的转变是需要用到字符集编码的。
默认情况下，采用Eclipse的默认字符集将Bytes转变为Char。
如果原始文件的编码是GBK，但是Eclipse的默认字符集是UTF-8。那么在读取文件的时候就会用错误的字符集进行编码，这就是出现中文乱码的原因。

解决办法是在创建Reader的时候指定字符集编码，比如：
假设读入文件的字符集编码是GBK，那么：
    InputStreamReader isr = new InputStreamReader(new FileInputStream(file), "gbk");
    BufferedReader reader = new BufferedReader(isr);

    String line = reader.readLine();
这样，line就是正确的按照GBK编码后的字符串。

如果希望将GBK编码的line以UTF-8的形式写入到文件中，可以：
    OutputStreamWriter osr = new OutputStreamWriter(new FileOutputStream(outfile), "UTF-8");
    BufferedWriter writer = new BufferedWriter(osr);
    //.....
    writer.write(line);