java源文件编码问题

最新推荐文章于 2024-01-05 11:14:42 发布

longcxm1

最新推荐文章于 2024-01-05 11:14:42 发布

阅读量303

点赞数

分类专栏： Java相关文章标签： java 操作系统开发工具

本文链接：https://blog.csdn.net/longcxm1/article/details/84298767

版权

Java相关专栏收录该内容

29 篇文章 0 订阅

订阅专栏

Java编译器在对源文件编译前，首先会源文件转换为unicode编码，然后再进行编译。例如：我们的源文件是以UTF-8的方式保存的，而在编译时编译器却把它当作是用GBK方式保存的，这样编译器就会按照GBK->Unicode的编码转换方法对源文件进行转换，然后再编译，这样当然会出错，实际上编译器应当按照UTF-8->Unicode的编码转换方法来对源文件进行转换。

通常我们手动建立一个java文件Demo.java，并保存。此时Demo.java文件的编码为ANSI,中文操作系统下就是GBK.然后使用javac命令来编译该源文件。”javac Demo.java”。Javac也需要读取java文件，那么javac是使用什么编码来解码我们读取的字节呢？其实javac采用了操作系统默认的GBK编码解码我们读取的字节，这个编码正好也是Demo.java文件的编码，二者一致，所以不会出现乱码情况。让我们来做点手脚，在保存Demo.java文件时，我们选择UTF-8保存。此时Demo.java文件编码就是UTF-8了。我们再使用”javac Demo.java”来编译，如果Demo.java里含有中文字符，此时控制台会出现警告信息，也出现了乱码。究其原因，就是因为javac采用了GBK编码解码我们读取的字节。因为我们的字节是UTF-8编码的，所以会出现乱码。如果不信的话你可以自己试试。那么解决办法呢？解决办法就是使用javac的encoding参数来制定我们的解码编码。如下：javac -encoding UTF-8 Demo.java。这里我们指定了使用UTF-8来解码读取的字节，由于这个编码和Demo.java文件编码一致，所以不会出现乱码情况了。

我习惯把Eclipse的编码设置成UTF-8。那么每个项目中的java源文件的编码就是UTF-8。这样编译也从没有问题，也没有出现过乱码。正是因为这样才掩盖了使用javac可能出现的乱码。那么Eclipse是如何正确编译文件编码为UTF-8的java源文件的呢？唯一的解释就是Eclipse自动识别了我们java源文件的文件编码，然后采取了正确的encoding参数来

编译我们的java源文件。功劳都归功于IDE的强大了。

输出再做一次转码

比如：Sysout.out.println(“我们”)。经过正确的解码后”我们”是unicode保存在内存中的，但是在向标准输出(控制台)输出时，jvm又做了一次转码，它会采用操作系统默认编码(中文操作系统是GBK)，将内存中的unicode编码转换为GBK编码，然后输出到控制台。因为我们操作系统是中文系统，所以往终端显示设备上打印字符时使用的也是GBK编码。因为终端的编码无法手动改变，所以这个过程对我们来说是透明的，只要编译时能正确转码，最终的输出都将是正确的，不会出现乱码。在Eclipse中可以设置控制台的字符编码，具体位置在Run Configuration对话框的Common标签里,我们可以试着设置为UTF-8,此时的输出就是乱码了。因为输出时是采用GBK编码的，而显示却是使用UTF-8，编码不同，所以出现乱码。

总之：

编码有2个方面：一是源文件本身的编码；二是文件内的字符编码；

要保证没有乱码，首先必须保证，源文件编码与编译器编译时用的编码保持一致，这是不出现乱码的前提条件。然后再保证字符的编码与解码保持一致即可，例如：

import java.io.UnsupportedEncodingException;

public class Hee{

public static void main(String args[]){

String s="深深深是";

System.out.println(s);

try {

System.out.println(new String(s.getBytes("UTF-8")));

} catch (UnsupportedEncodingException e) {

e.printStackTrace();

}

第二次打印会出现乱码，可以思考一下为什么会出现乱码?

答案：它本身已经是UTF-8编码了，但却是按照GBK转换为unicode，然后再unicode转换为GBK，因此它会乱码显示，其它正常。

longcxm1

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java源文件编码问题

Java编译器在对源文件编译前，首先会源文件转换为unicode编码，然后再进行编译。例如：我们的源文件是以UTF-8的方式保存的，而在编译时编译器却把它当作是用GBK方式保存的，这样编译器就会按照GBK-&gt;Unicode的编码转换方法对源文件进行转换，然后再编译，这样当然会出错，实际上编译器应当按照UTF-8-&gt;Unicode的编码转换方法来对源文件进行转换。 ...
复制链接

扫一扫