如何避免字节流读取文本乱码

一、问题的发生

当我们尝试用字节流处理读取文档时候

public static void main(String[] args) throws IOException {
        FileInputStream fis=null;
        try {
            // File file = new File("d:/hello/1.png");
            File file = new File("d:/hello/demo.txt");
            fis = new FileInputStream(file);
            byte[] b = new byte[5];
            int len;
            StringBuffer str = new StringBuffer();
            while ((len = fis.read(b)) != -1) {
                str.append(new String(b, 0, len));
            }
            System.out.println(str.toString());
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if(fis!=null){
                fis.close();
            }
        }
    }

运行结果是如下图左侧  读取的文本如下图右侧

          

 

为啥结果是中文 "我" 和 "长 "没有乱码,其它位置上的乱码了?其实这个跟每次去读的byte数组大小有关

二、究其原因

上面的代码fis.read(b)每次读取5个字节,但在UTF-8编码格式下,每个汉字占3个字节(GBK下是2个),那么问题的发生就显而易见了,

 

使用字节流读取UTF-8编码的数据乱码的原因分析:当采用UTF-8编码时,如果固定了每次转换的字节数,那么各种类型的字符混用时有很大可能造成乱码。比如每次读取2个字节。 如果存的是"AB",那么OK,不会乱码如果存的是"A文",那么每次读取2个字节,A-->可以读出来A,但是“文”没有读取完整,只读了一个字节的信息,还有2个字节的信息没有读取。所以“文”就会出现乱码

三、如何解决

方法一:如果一定要byte[]数组来存在读取的数据,且数据量较小。那么可以扩大数组的容量,让byte[]数组能够存储所有的字节,然后在转换成字符

// 已知。数据约小于5kb,那么可以把byte数组大小定义成5KB,
    byte[] bytes = new byte[1024*5];

把所有的数据全部读进去,然后转换成字符,那么不会出现乱码
 

方法二:使用IO流中的字符流来包装字节流,最便利的就是使用BufferedReader来实现

InputStream is = connection.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"utf-8"));

 

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一棵小白菜#

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值