IDEA的乱码与file.encoding = UTF-8

哦...

已于 2022-11-30 02:38:21 修改

阅读量8.9k

点赞数 1

分类专栏： Java Web 文章标签： intellij-idea 乱码 file.encoding

于 2022-11-29 21:51:34 首次发布

本文链接：https://blog.csdn.net/piglite/article/details/128105991

版权

Java Web 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

本文深入探讨了Java中`file.encoding`属性的作用，解释了文件编码、解码过程以及可能出现的乱码问题。通过实例展示了IDEA与命令行环境下编码设置的不同导致的乱码现象，并提供了修正方法。强调了编码一致性在文本处理中的重要性。

摘要由CSDN通过智能技术生成

file.encoding = UTF-8的作用其实就是使用UTF-8作为文件encoding和decoding时的默认方案。

我们知道存储文本文件时，文本变为二进制时要对文件进行encoding，这是一个字节转字符的过程，转换的具体工作由JAVA的API完成（例如：getBytes(编码方案)方法），但是如果你不提供编码方案，那么JAVA会使用一个默认编码方案完成这个任务。这个默认的编码方案就是JVM的file.encoding设置所规定的编码方案，如果JVM没有设置file.encoding，那么JAVA就使用UTF-8编码方案。

当显示文本时，有一个从二进制“还原”到文本的decoding，也就是字节到字符转换的过程。原则上，encoding时用的编码方案就是decoding时用的编码方案。转换的具体工作由JAVA的API完成（例如：new String(bytes,编码方案）），但是如果你不提供编码方案，那么JAVA会使用一个默认编码方案完成这个任务。这个默认的编码方案就是JVM的file.encoding设置所规定的编码方案，如果JVM没有设置file.encoding，那么JAVA就使用UTF-8编码方案。

最后，文本要在一个“平台”显示，这个平台可能是IDEA的控制台，可能是Windows的CMD窗口，也可能是打印机或者某个文本编辑器中。

好了，以上三个步骤中，任何一个步骤出现了不正确的编码方案，都可能产生乱码。

1. 使用文本编辑器编辑文本文件时，文本文件的编码就是文本编辑器的编码。不同的编辑器使用的默认编码方案是不一样的。Windows记事本是GBK，IDEA、VSCODE默认的是UTF8。那么，一个用GBK编码方案编写的.java文件使用UTF-8编译成.class文件，那么从一开始就错了。

2. 如果是同一个人做的encoding，那当然知道decoding该用什么编码方案。但如果不知道encoding的编码集，那你decoding使用的编码方案就无从选择了。如果不指定就会使用默认的编码方案，不匹配就会出现乱码。

3.呈现文本内容的平台也有自己默认的编码集，比如CMD窗口默认是936（GBK）显示方式，那么一个正确的UTF8字符串在GBK容器中也是无法正确显示的。

接下来，我们就看几个实际的例子体会一下：

1. IDEA中创建一个项目TestCoding.java，在IDEA中设置项目的字符集：

可以看到，IDEA的文本编码编码是UTF-8，file.encoding通过project encoding设置为了UTF-8。

public class TestCoding {
    public static void main(String[] args) throws UnsupportedEncodingException {
        System.out.println("file encoding:"+System.getProperty("file.encoding"));
        String s="AC米兰";
        byte[] bytes = s.getBytes();
        System.out.println(new String(bytes));
    }
}

下面我运行这个程序，看一看它在IDEA的控制台上输出情况：

首先控制台上是正确的输出，而且在控制台的右下角我们看到，作为输出内容的容器，控制台使用的是UTF-8。

那么同样的程序，我们看看在控制台编译和输出的效果：

我们发现，同样的程序，这里出现了乱码。那么根据输出和上面的分析问题出在了哪里？那其实三个步骤都可能出了问题！

1. 可以看到，终端环境下的file encoding居然是GBK。我们的TestCoding.java是UTF8，那么encoding是使用的GBK，这样得到的编码文件TestCoding.class其实是“错误”的。

2.为什么“错误”打了引号，是因为我们decoding时也用了GBK，结果错错得正，又得到了一个GBK的源文件。（其实这是一种幸运，毕竟我是在同一台机器上连续使用默认的方式encoding和decoding）

3.那么被幸运还原的文本内容依然是乱码的终极原因是，容器采用了不同的编码集。

修正的方式就是将code page从936更正为65001即可。

现在修改一下代码和IDEA的配置：

这个修改实际是将IDEA使用的默认编码方案改为了GBK。

修改代码：

import java.io.UnsupportedEncodingException;

public class TestCoding {
    public static void main(String[] args) throws UnsupportedEncodingException {
        System.out.println("file encoding:"+System.getProperty("file.encoding"));
        String s="AC米兰";
        byte[] bytes = s.getBytes();
        System.out.println(new String(bytes,"UTF-8"));
    }
}

再次运行代码，这一次就出现了乱码：

那么错误的原因也不用赘述了。

1. 用默认的GBK编码方案encoding用UTF8写出来的TestCoding.java，错误

2.用指定的UTF编码方案，decodingGBK编码的TestCoding.class，错上加错

3.用UTF-8容器显示一个错上加错的文本，当然只能是????

哦...

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
IDEA的乱码与file.encoding = UTF-8

我们知道存储文本文件时，文本变为二进制时要对文件进行encoding，这是一个字节转字符的过程，转换的具体工作由JAVA的API完成（例如：getBytes(编码方案)方法），但是如果你不提供编码方案，那么JAVA会使用一个默认编码方案完成这个任务。我们的TestCoding.java是UTF8，那么encoding是使用的GBK，这样得到的编码文件TestCoding.class其实是“错误”的。首先控制台上是正确的输出，而且在控制台的右下角我们看到，作为输出内容的容器，控制台使用的是UTF-8。
复制链接

扫一扫

专栏目录