Java中IO流-19-字节流写中文的问题

最新推荐文章于 2023-06-03 15:23:17 发布

Anthony_tester

最新推荐文章于 2023-06-03 15:23:17 发布

阅读量1.6k

点赞数

分类专栏： Java基础-异常/IO/File/多线程-学习笔记文章标签：字节流读取中文问题

本文链接：https://blog.csdn.net/u011541946/article/details/81160151

版权

Java基础-异常/IO/File/多线程-学习笔记专栏收录该内容

58 篇文章 19 订阅

订阅专栏

前面我们在介绍字节流读写文件都是用英文内容来介绍，那么如果用字节流来读取中文的文件内容会有什么问题呢？当然，我们前面文章提到过，除了字节流还有一种字符流，字符流用来用来处理纯字符的文件。这篇，我们还没有介绍字符流操作，我们尝试用字节流方式去读取文件，然后看看会发生什么问题吧.

由于我们大部分人都是中文的操作系统，Eclipse安装之后，右键项目，属性，可以看到默认的编码方式是GBK，所以，我们不能一个一个字节去读取，这样的话肯定产生乱码。由于中文中GBK字符集，每个汉字都是采用2个字节存储，所以，我们下面利用小数组的方式来看看。（提前在当前项目下准备一个abc.txt文件，里面内容就四个汉字“你好你好”）

package io;

import java.io.FileInputStream;
import java.io.IOException;

public class Demo4_BufferCopy {

	public static void main(String[] args) throws IOException {
		
		FileInputStream fis = new FileInputStream("abc.txt");
		byte[] arr = new byte[3]; //数组长度为3个字节
		
		int len;
		while ( ( len = fis.read(arr)) != -1 ) {
			System.out.println(new String(arr,0,len));
		}
		
		fis.close();
	}

}

上面代码，首先是创建一个3个字节的小数组，这个就是我们自定义的，有点类似缓冲区的意思。每次读取3个字节的长度，然后while循环中的打印语句部分，使用了String类的构造方法，把字节数组转换成字符串。上面的代码一定要你Eclipse项目右键，属性面板字符集显示GBK，运行才显示乱码，如果字符集是UTF-8，运行正常输出显示中文。

显示乱码的原因就是每次都读取3个字节，但是GBK中一个汉字占两个字节，第一次读取3个字节，读取出了“你”和“好”的一半，这一半就显示乱码或者问号。如果你把数组长度改成一次性读取4个字节，那么问题就会消失。但是，如果你abc.txt中还包含其他的符号，例如逗号，点号等等，这种4个字节读取还是可能会出现乱码。所以，字节流读取中文还是不可靠，这个就需要字符流来干这个活。