读写流存在的编码问题

最新推荐文章于 2021-10-21 17:29:05 发布

edison_cool911

最新推荐文章于 2021-10-21 17:29:05 发布

阅读量113

点赞数

分类专栏： Java 基础文章标签： Android

本文链接：https://blog.csdn.net/edison_cool911/article/details/83646928

版权

Java 基础专栏收录该内容

42 篇文章 0 订阅

订阅专栏

下面这段代码是通过从服务器端获取response流,然后解析的片段:


  StringBuffer sb = new StringBuffer();
  HttpEntity entity = response.getEntity();
  InputStream is = entity.getContent();
  BufferedReader br = new BufferedReader(
			 new InputStreamReader(is));
  String data = "";
  while ((data = br.readLine()) != null) {
     sb.append(data);
   }
 String result = sb.toString();

这样读取到的文件在Android上显示乱码,请求的网页时gb2312的，Android模拟器上的是utf-8
出现这样问题的原因如下:
在java运行时的时候，String都是没有区别的都是以2字节的unicode的形式存在内存中，所谓编码，是针对把String转换成 byte[]而言的。比如我可以把 "abc" 通过 utf-8转换成了一串数据 A ，也可以通过gb2312转换成另一串数据 B，这个过程就是 String.getBytes()，比如 "abc".getBytes("utf-8")得到A , "abc".getBytes("gb2312")得到B。如果是"abc".getBytes()，就不知道用的什么编码了，这和平台相关。
那如何从A串或者B串重新得到String呢，那就是 new String(A,"utf-8") 或者 new String(B,"gb2312")。因为A是从utf-8转换得到的，所以用utf-8转回String ,如果new String(A,"gb2312")，那么其中的中文就是乱码。当然gbk和utf-8的有小部分编码集合是一样的，所以英文字符，一般不管怎么转都可以歪打正着
另外，因为网络传输肯定是用byte[]的，不可能直接把String对象给传过来，所以server想把某个字符串传给client之前，需要将他转成byte[],这中间就用了server指定的一种编码，client在收到这个 byte[]之后，就必须要采用和server相同的编码，把byte[]重新转换为String。这就是InputStreamReader需要指定一个编码的原因。 InputStreamReader作用就是在通过inputStream读到byte[]的同时，将byte[]用指定的编码，转换为 char[],也就是实际上的String.

[color=red]PS:上述代码段中
BufferedReader br = new BufferedReader(
new InputStreamReader(is,"UTF-8"));
就是按utf-8读取服务器端发送过来的编码格式的byte,如果服务器端发送的是GB2312的话,这样读取就会是乱码.[/color]