Java中编码和解码和字符集乱码问题

1,在java的IO编程中常常会遇到字符串和字节数组转换乱码问题

2,出现乱码的原因可能是编码不统一。

3,乱码原因还有可能是字符集长度不统一。

首先来看编码,编码就是字符串转换为字节数组。

 编码中用到String类的getBytes方法,这个方法能够将字符串转换位字节数组。

 上面这一段呢是String类中的getBytes方法,可以看到它返回StringCoding.encode(...........),我猜呢,StringCoding类就是将String字符串编码成字节,当然里面有很多我看不懂的方法(新手猜测,才学会看一点点源码,说错了请大佬指教),转换了之后呢,下面是控制台输出的字节数组的长度

我工程中用的是GBK编码,所以呢,说明在GBK编码中一个汉字占有两个字节。

接下来呢,我将字符编码改为UTF-8

同样呢,getBytes(charset)这个方法就没什么好讲了,它无非就是上一个方法的前提上加个编码方式

来看结果

 结果呢可以发现在UTF-8编码方式中,一个汉字占三个字节。

接下来那我们来看解码过程。

解码过程就是将字节数组转换成字符串的过程

 解码过程很简单,就是使用String类的构造器,当然类中的构造器肯定不止一个,开篇我们说到发生乱码的原因是编码方式不统一和字符集长度不统一,下面就来测试一下

 将原本的GBK转换成UTF-16LE结果就如下了

 接下来就是字节长度引起的乱码问题

我们从0-length-3GBK编码方式进行解码,上面说了一个汉字用GBK编码占两个字节,也就是说我们从0-length-3就是取到三个字节,然后呢,三个汉字总共6个字节所以,我们只能取到一个半汉字,所以乱码就产生了。来看看结果。

完结。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值