RandomAccessFile类的readLine方法对文本文件中文字符读取显示乱码的问题及解决方法的深入分析

采用readLine方法对txt文本读取中文字符显示乱码,尽管很快找到解决方案,但疑惑反而更多。

1.问题

RandomAccessFile ran=new RandomAccessFile("D:/test.txt","r");
System.out.println(ran.readLine());

当直接用readLine方法对txt文件里的中文字符读取时,显示出来的是乱码。

2.解决方案

经过查找,网上的解决方案是

System.out.println(new String(ran.readLine().getBytes("iso-8859-1"),"gbk"));

2.1.简单介绍下字符集(可跳过)

1、 ISO-8859-1

又称为西欧语言,在ascll码的基础上增加了96个字符和符号,单字节编码,无法表示中文。

2、GB2312/GBK/GB18030

GB2312:我国国家标准简体中文字符集,双字节编码。

GBK:汉字内码扩展规范,不属于国家标准,但囊括范围更广,兼容GB2312。

GB18030:国家标准,在GBK基础上再增加内容。(好像少见)

3、Unicode

计算机科学领域的业界标准,对世界上大部分的文字系统进行了整理、编码。

4、utf-8/utf-16

都是一种针对Unicode的可变长度字符编码。区别在于:

utf-8:对字符采用1到4字节编码。中文是3个字节。

utf-16:对大部分字符采用2字节编码,极少部分采用4字节编码。

2.2.接着解决方案 

System.out.println(new String(ran.readLine().getBytes("iso-8859-1"),"gbk"));

解决方案的意思是:

(提下编码解码的概念:编码:把字符转换成字节。解码:把字节转换成字符。)

将readLine读取出来的字符串通过getBytes方法按iso-8859-1编码字节数组,然后再将字节数组按gbk解码,最后转换成字符串输出。

[2022.9.16更新]删除一些多余的解释,主要的原因在readLine()源码里。

2.3.readLine()源码 

public final String readLine() throws IOException {
        StringBuffer input = new StringBuffer();
        int c = -1;
        boolean eol = false;

        while (!eol) {
            switch (c = read()) {   //read():每次读取一个字节
            case -1:
            case '\n':
                eol = true;
                break;
            case '\r':
                eol = true;
                long cur = getFilePointer();
                if ((read()) != '\n') {
                    seek(cur);
                }
                break;
            default:
            // 重点就这一句
                input.append((char)c);
                break;
            }
        }

        if ((c == -1) && (input.length() == 0)) {
            return null;
        }
        return input.toString();
    }

[2022.9.16更新]重写了对源码的解析,以前研究的不够透彻。

  • readLine方法通过read()方法读取文本文件里存储的字节。
  • 然后将int型的字节数据转换成char型,重点在这里。

char类型用2个字节的Unicode值表示一个字符,读取到的GBK编码单字节被添加了一个全零的字节组成了Unicode值。

而iso-8859-1是单字节编码,对这个Unicode值进行iso-8859-1编码将会去掉前面补充的零,得到原来GBK编码的字节,这时再用GBK解码即可得到原来的字符。

举个例子——

  • "你"字对应的GBK编码是0xC4E3(0x表示十六进制)
  • read()方法读取到两个int类型的字节0xC4和0xE3,转变成char型:0x00C4,0x00E3
  • 如果直接输出,编译器会直接查找/计算0x00C4这个Unicode值对应的字符,很显然会输出乱码。
  • 采用iso-8859-1编码后:0xC4,0xE3
  • 采用GBK解码成Unicode值:0x4F60,为什么不是解码成字符?因为char或String类型存储的就是Unicode值,经过查找或计算就能得到相应的字符。
  • 如果不采用iso-8859-1编码直接GBK解码会怎么样?编译器将会对0x00C4,0x00E3进行GBK解码,因为GBK编码解码是两个字节对应一个字符的,所以会得到两个字符,这种情况也会导致乱码。

因为在写另一份更加详细的java字节流读取博客,所以对这篇博客的修改很粗糙,可能你看完有点点感觉但好像又没完全弄懂,可以看下这篇——Java字节流读取中文文本编码解码详解

  • 8
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
问题出现的原因是因为使用readLine()方法读取文本文件时,默认使用的是系统默认的字符编码,而中文字符在不同的编码下可能会出现乱码解决这个问题方法是使用指定的字符编码来读取文件。 可以在创建BufferedReader对象时,指定字符编码来解决乱码问题。例如,如果文本文件采用UTF-8编码,可以修改代码如下: BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(fileName), "UTF-8")); 这样,读取文本文件时就会使用UTF-8编码,可以正确地读取中文字符。注意,需要确保指定的字符编码与文本文件的实际编码一致,否则可能仍然会出现乱码。 引用提供了一个示例代码,通过使用指定的字符编码来解决乱码问题。而引用则是对问题的描述和解决方案的疑问,引用则解释了乱码的原因和解码的过程。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Java读取文本文件中文乱码问题](https://blog.csdn.net/m0_67402914/article/details/124812795)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [RandomAccessFilereadLine方法文本文件中文字符读取显示乱码问题解决方法深入分析](https://blog.csdn.net/qq_51214556/article/details/123431290)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值