解决将汉字GBK码分拆后进行UTF-8编码而出现的乱码

    这种乱码是比较常见的,类似于“À´×Ô”,其内码形式:%c3%80%c2%b4%c3%97%c3%94,这其实是“来自”两个字的乱码,但是为什么显示成了“À´×Ô”?是因为“来自”两个字符的GBK是:C0 B4 D7 D4,本来C084表示“来”,D7D4表示“自”,很多软件判断错误,把双字节拆成单字节编码成utf-8就是:c3 80 c2 b4 c3 97 c3 94,这种乱码的特征就是每隔一个字节不是C2就是C3。

      我使用VB编程,先将c3 80 c2 b4 c3 97 c3 94还原成GBK码,因为两位的UTF-8编码规则是110XXXXX10XXXXXX,如C397的二进制是:11000011 10010111,高位去掉110,就是00011,低位去掉10,就是010111,再合起来:00011010111,就是&HD7,因为C3是11000011,跟后面低位合并,就是11XXXXXX,其实就是加上01000000,就是&H40,C2是11000010,跟后面低位合并跟后面低位合并,就是10XXXXXX,其实不变。因此具体方法是:高位为C3的,低位加&H40,高位为C2的,低位不变,同时高位都去掉,这样c3 80 c2 b4 c3 97 c3 94就变成了C0 B4 D7 D4。

      但是由于VB的字符串都是UNICODE编码的,ChrW函数也只认UNICODE的汉字,因此直接ChrW(&HC0B4)显示还不正确,因此需要将GBK码再转成UNICODE码,具体方法有两种,一种是运算,另一种是取巧了,在网上下载了一个gbk-Unicode的对照码表,编段简单的程序,查找对应的Unicode码即可。最后得出C0B4 D7D4的UNICODE码为:6765 81EA,ChrW(&H6765) & ChrW(&81EA)就显示出“来自”两个字了。

     具体程序还比较乱,我整理一下再发上来。
 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值