解决将汉字GBK码分拆后进行UTF-8编码而出现的乱码

    这种乱码是比较常见的,类似于“À´×Ô”,其内码形式:%c3%80%c2%b4%c3%97%c3%94,这其实是“来自”两个字的乱码,但是为什么显示成了“À´×Ô”?是因为“来自”两个字符的GBK是:C0 B4 D7 D4,本来C084表示“来”,D7D4表示“自”,很多软件判断错误,把双字节拆成单字节编码成utf-8就是:c3 80 c2 b4 c3 97 c3 94,这种乱码的特征就是每隔一个字节不是C2就是C3。

      我使用VB编程,先将c3 80 c2 b4 c3 97 c3 94还原成GBK码,因为两位的UTF-8编码规则是110XXXXX10XXXXXX,如C397的二进制是:11000011 10010111,高位去掉110,就是00011,低位去掉10,就是010111,再合起来:00011010111,就是&HD7,因为C3是11000011,跟后面低位合并,就是11XXXXXX,其实就是加上01000000,就是&H40,C2是11000010,跟后面低位合并跟后面低位合并,就是10XXXXXX,其实不变。因此具体方法是:高位为C3的,低位加&H40,高位为C2的,低位不变,同时高位都去掉,这样c3 80 c2 b4 c3 97 c3 94就变成了C0 B4 D7 D4。

      但是由于VB的字符串都是UNICODE编码的,ChrW函数也只认UNICODE的汉字,因此直接ChrW(&HC0B4)显示还不正确,因此需要将GBK码再转成UNICODE码,具体方法有两种,一种是运算,另一种是取巧了,在网上下载了一个gbk-Unicode的对照码表,编段简单的程序,查找对应的Unicode码即可。最后得出C0B4 D7D4的UNICODE码为:6765 81EA,ChrW(&H6765) & ChrW(&81EA)就显示出“来自”两个字了。

     具体程序还比较乱,我整理一下再发上来。
 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
如果在Java中将UTF-8编码的字符串转换为GBK编码出现码,通常是由于编码不一致或者字节流不完整所导致的。可以尝试以下几种方法解决: 1. 检查源字符串的编码是否为UTF-8 确保源字符串的编码UTF-8,可以使用以下代码进行检查: ```java String utf8Str = "你好,世界!"; byte[] utf8Bytes = utf8Str.getBytes("UTF-8"); String utf8Check = new String(utf8Bytes, "UTF-8"); System.out.println(utf8Check.equals(utf8Str)); // true ``` 如果输出结果为true,则表示源字符串的编码UTF-8,否则需要先将其转换为UTF-8编码。 2. 检查目标编码是否为GBK 确保目标编码GBK,可以使用以下代码进行检查: ```java String gbkStr = "你好,世界!"; byte[] gbkBytes = gbkStr.getBytes("GBK"); String gbkCheck = new String(gbkBytes, "GBK"); System.out.println(gbkCheck.equals(gbkStr)); // true ``` 如果输出结果为true,则表示目标编码GBK,否则需要将目标编码修改为GBK。 3. 使用正确的字符集名称 在进行编码转换时,必须使用正确的字符集名称。可以使用以下代码查看系统支持的字符集名称: ```java Map<String, Charset> charsetMap = Charset.availableCharsets(); System.out.println(charsetMap.keySet()); ``` 如果输出结果中包含GBK编码,则可以在转换时使用"GBK"作为目标编码。 4. 使用正确的字节流长度 在将字节数组转换为字符串时,必须使用正确的字节流长度。可以使用以下代码进行检查: ```java String gbkStr = "你好,世界!"; byte[] gbkBytes = gbkStr.getBytes("GBK"); String utf8Str = new String(gbkBytes, "UTF-8"); System.out.println(utf8Str); ``` 如果输出结果为码,则表示字节流长度不正确,可以尝试增加字节流长度或者使用其他的转换方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值