IO流中字节码编码的问题（乱码原因分析）

最新推荐文章于 2023-02-24 14:37:07 发布

XRYMIBZ

最新推荐文章于 2023-02-24 14:37:07 发布

阅读量842

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/XRYMIBZ/article/details/70226863

版权

先列几个概念：

1.各种字节IO流(ByteArrayOutputStream,FileOutputStream)都是继承的InputStream,和OutputStream。

2.内存中运行的各种对象的字节编码格式都是Unicode

3.我们将字符串（String）转为字节数组（Byte[]），或者将字节数组转化为字符串的时候，可以指定编码格式，常见的编码格式有UTF-8,GBK,Unicode，ISO-8859等。

举例：

String str ="";

str.getBytes("UTF-8")

byte[] buffer =newbyte[256];

ByteArrayOutputStream out=newByteArrayOutputStream();

out.write(buffer,0, n)

out.toString("GBK")

第一段代码我们将字符串编码格式为UTF-8的字节数组。

第二段代码我们将字节数组写入字节流输出对象中，并使用toString转化为字符串，这个时候的转换我们使用了GBK格式编码。

如果我们不指定编码格式，则JVM会使用系统默认的编码格式进行编码和解码（Android Studio,eclipse等默认GBK、或者UTF-8，可以修改配置成需要的编码格式）。

我们知道，汉字在UTF-8中是编码为3个字节的，而在GBK中是编码成两个字节的。

如果编码的时候，使用的UTF-8，解码使用GBK，就会出现乱码。

举个例子

字符串 "广州"，被编码成UTF-8格式的话是6个字节

E5 B9 BF E5 B7 9E

前三个字节表示"广"，后三个字节表示"州"

如果这个字节数组被GBK格式解码后，就会每两个字节对应一个汉字

E5 B9 --> 骞

BF E5--> 垮

B7 9E--> 窞

"广州" 就变成了乱码 "骞垮窞"

解决方法：

所以，我们在字符串的编码解码过程中（主要是IO通信时候），最好是主动指定编码的格式，设置成同意的格式，不然的话，如果编码所在机器和解码服务器的默认编码格式不一样的话，就很容易出现乱码。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
IO流中字节码编码的问题（乱码原因分析）

先列几个概念：1.各种字节IO流(ByteArrayOutputStream,FileOutputStream)都是继承的InputStream,和OutputStream。2.内存中运行的各种对象的字节编码格式都是Unicode3.我们将字符串（String）转为字节数组（Byte[]），或者将字节数组转化为字符串的时候，可以指定编码格式，常见的编码格式有UTF-8,GBK,Unicode，IS
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。