关于FileReader（FileWriter）的read()方法（write()方法）的编码格式问题

马蹦跶

已于 2024-02-29 19:03:03 修改

阅读量3.4k

点赞数 4

分类专栏：研发相关文章标签： java jvm stream

于 2021-07-30 02:06:39 首次发布

本文链接：https://blog.csdn.net/qq_42543478/article/details/119225572

版权

研发相关专栏收录该内容

5 篇文章 0 订阅

订阅专栏

关于FileReader（FileWriter）的read()方法（write()方法）的编码格式问题

背景：
在我们进行数据的读取和写出的时候需要使用IO流，IO流即Input流和Output流，从方向上来划分有输入和输出之分，我们站在程序的角度来考虑，读取数据需要数据输入，因此我们需要使用输入流，反之写出数据使用输出流。
而按照流的作用对象来划分，还可以分成节点流（作用在两个节点，即数据输出端和数据输入段两个节点的流）和处理流（即作用在流上的流）。
按照流的读取输出的方式我们可以将流划分为字符流和字节流。本文将对一组字符节点流的编码格式进行说明和实验证明，以FileReader为主，FileWriter同理。

FileReader的read()方法：
这个方法的作用是每次读取文件流当中的一个“字符”，并且将其返回为int型的值，如果达到文件的末尾，那么返回-1。
值得特殊说明的是，这里的“字符”和我们理解的char并不是一个概念，java中的字符是分为内码和外码的，内码即在JVM中使用的编码是unicode，所有字符都用两个字节来表示，中文也不例外；而外码就是指JVM之外的字符编码，如果我们选用utf-8那么就是就是utf-8，如果选用gbk就是gbk。以utf-8举例，一个字符的编码是变长的，一个中文有可能使用三个字节来表示，那如何使用char a = "我"这样的语法呢？这部分内容请参考点击这里
回过头说read()方法的第一点，它为什么要返回int而不直接返回char，原因是一个char占两个字节，而每一个char都有可能作为要返回的数据，那么就没有数据用来表示文件的末尾，因此我们需要int这种能表示更多情况且和char之间可以相互转化的数据，选用-1来表示文件的末尾。
第二个关键点也是本文的核心，文件是使用外码进行存储的，那么在读取的时候，read()方法是如何识别出这一次应该读取3个字节还是2个字节呢。
从我们的角度思考，我们应该可以给它指定一种解码方式，这样它就可以根据文本编码，按照对应的解码方式进行解码，比如说utf-8这种方式，就可以又是读取2个字节，有时读取3个字节（实际存储到内码中还是两个字节）。
不过很遗憾的是，FileReader中并没有给我们为其设置解码方式的方法，实际上，它是根据系统默认的解码方式来进行解码的。如果你是在idea中运行代码，那么那么它就是采用的idea的默认解码方式，这一点在idea中可以设置。如果你是在windows中通过命令行格式运行的代码，那么它的默认解码方式就是GBK，也就是说运行环境不同，相同代码的执行结果就会不同。
实验代码

public class test1 {
    public static void main(String[] args) {

            InputStreamReader isr = null;
            try {
                isr = new FileReader("E://IdeaJavaProject//Test//src//abc");
                int data = isr.read();
                while (data != -1){
                    System.out.print((char) data);
                    data = isr.read();
                }
                isr.close();
            } catch (IOException e) {
                if (isr != null) {
                    try {
                        isr.close();
                    } catch (IOException ioException) {
                        ioException.printStackTrace();
                    }
                }

            }
    }
}

在以上的代码中，文件名选择英文格式是很有必要的，如果选用中文的话，会因为idea和windows编码格式不同，从而导致两次编译生成的class文件中的中文文件名不同而无法找到该文本文件，而英文是全部兼容的所以可以避免这个问题。

文本内容
在这里插入图片描述

实验结果
首先文本文件为utf-8编码，idea为utf-8解码，windows为GBK解码，由idea进行编译，idea和windows分别运行。
idea运行结果如下
在这里插入图片描述
windows运行结果如下

然后是文本为GBK编码，idea为utf-8解码，windows为GBK解码，由idea进行编译，idea和windows分别运行。
idea结果如下

windows直接运行如下

总结：实际上由谁来编译并不会影响到结果的，因为本质上都是java进行的编译，正所谓“一处编译，到处运行”，不同产生于运行时，read()方法会读取系统的默认编码格式，也就是前文说的运行环境的不同造成了结果的不同，这是一个运行时产生的差异。以上内容为个人的一点小小探究，如果有所疏漏欢迎补充更正。

马蹦跶

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
关于FileReader（FileWriter）的read()方法（write()方法）的编码格式问题

关于FileReader（FileWriter）的read()方法（write()方法）的编码格式问题背景：在我们进行数据的读取和写出的时候需要使用IO流，IO流即Input流和Output流，从方向上来划分有输入和输出之分，我们站在程序的角度来考虑，读取数据需要数据输入，因此我们需要使用输入流，反之写出数据使用输出流。而按照流的作用对象来划分，还可以分成节点流（作用在两个节点，即数据输出端和数据输入段两个节点的流）和处理流（即作用在流上的流）。按照流的读取输出的方式我们可以将流划分为字符流和字节流
复制链接

扫一扫