前面我们在介绍字节流读写文件都是用英文内容来介绍,那么如果用字节流来读取中文的文件内容会有什么问题呢?当然,我们前面文章提到过,除了字节流还有一种字符流,字符流用来用来处理纯字符的文件。这篇,我们还没有介绍字符流操作,我们尝试用字节流方式去读取文件,然后看看会发生什么问题吧.
由于我们大部分人都是中文的操作系统,Eclipse安装之后,右键项目,属性,可以看到默认的编码方式是GBK,所以,我们不能一个一个字节去读取,这样的话肯定产生乱码。由于中文中GBK字符集,每个汉字都是采用2个字节存储,所以,我们下面利用小数组的方式来看看。(提前在当前项目下准备一个abc.txt文件,里面内容就四个汉字“你好你好”)
package io;
import java.io.FileInputStream;
import java.io.IOException;
public class Demo4_BufferCopy {
public static void main(String[] args) throws IOException {
FileInputStream fis = new FileInputStream("abc.txt");
byte[] arr = new byte[3]; //数组长度为3个字节
int len;
while ( ( len = fis.read(arr)) != -1 ) {
System.out.println(new String(arr,0,len));
}
fis.close();
}
}
上面代码,首先是创建一个3个字节的小数组,这个就是我们自定义的,有点类似缓冲区的意思。每次读取3个字节的长度,然后while循环中的打印语句部分,使用了String类的构造方法,把字节数组转换成字符串。上面的代码一定要你Eclipse项目右键,属性面板字符集显示GBK,运行才显示乱码,如果字符集是UTF-8,运行正常输出显示中文。
显示乱码的原因就是每次都读取3个字节,但是GBK中一个汉字占两个字节,第一次读取3个字节,读取出了“你”和“好”的一半,这一半就显示乱码或者问号。如果你把数组长度改成一次性读取4个字节,那么问题就会消失。但是,如果你abc.txt中还包含其他的符号,例如逗号,点号等等,这种4个字节读取还是可能会出现乱码。所以,字节流读取中文还是不可靠,这个就需要字符流来干这个活。