怎么把存储UTF-8编码的字符串转换成实际字符

踩过的坑1:怎么把存储UTF-8编码的字符串转换成实际字符

首先说明下问题。之前用爬虫从网上down数据的时候因为没有思考到位,结果出现了一个很奇葩的问题。一般来说中文采用UTF8编码后写成byte[]的格式然后存储在计算机中什么问题都没有,但是在写代码的时候我居然把byte[]又转换成了UTF8格式然后在存储。比如说“阜”会以\u961c这样的byte[]格式存储。但是我却存储了”\u961c”这样的字符串所对应的byte[]格式。

下面开始介绍下解决问题的思路了:
首先,找了下java里面似乎是没有类似的方法的。所以需要自己来了。
根据UTF8编码的方式。所有的常用中文都是用3个字节来编码的。
所以简单的思路就是将string里的16进制的不同的byte位拆分后对应转换成UTF8编码就行了。这里简单贴一下代码。只能演示用实际使用需要封装。而且仅针对中文。
其实这里还有一些其他问题。java中间>>>应该是右移补0的但是不知道为什么实际情况并不是这样。不知道哪里出了问题这里先标记下。

public class Utf8stringdecode {
    public static void main(String[] args) throws UnsupportedEncodingException {
        // TODO Auto-generated method stub
        String Utf8Str = new String("5357");
        int Utf8Int = Integer.parseInt(Utf8Str,16);
        System.out.println(Integer.toBinaryString(Utf8Int));
        byte[] bytes = ByteBuffer.allocate(4).putInt(Utf8Int).array();//why it only work when allocate(4) or more?
        byte[] Utf8Code = new byte[3];
        Utf8Code[0] = (byte) ((bytes[2]>>>4 | (byte) 224 )& (byte) 239);//why this should add (byte) before bytes[2]>>>4 and >>> will add 1 at left position;
        System.out.println("Utf8Code[0]:"+Utf8Code[0]);
        Utf8Code[1] = (byte) ((((bytes[2] & (byte) 15)<<2)|(byte) 128 )|((byte)bytes[3]>>>6)&(byte)3);
        System.out.println(Utf8Code[1]);
        Utf8Code[2] = (byte) ((bytes[3]& (byte) 63)|(byte) 128);
        System.out.println(Utf8Code[2]);
        String StaName = new String(Utf8Code,"UTF-8");
        System.out.println(StaName);
    }
}
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值