unicode码 java中文

   最近做项目,要把unicode转为中文,但是本身取出来的时候unicode码已经被转为“\\u6211”了,无法用java默认的转码来转换了。

        自己写了一个转换器,根据unicode转码的规律,之后遇到了不少麻烦,例如如果以“\\u”开头但是根本不是unicode码、末尾以“\\”结尾啊什么的。目前是把程序完成为能想到的出错的可能性都覆盖了,以后再碰到再修改。

Java代码 复制代码  收藏代码
  1. public class UnicodeDecoder {   
  2.   
  3.     public static void main(String[] args) {   
  4.         String s = "\\\u6211\\uadsf\\t\\u7231\u5317\\u4EAC\u5929\\u5B\t89\\\t\u95E8\\\"\\u12";   
  5.         System.out.println(decode(s));   
  6.     }   
  7.   
  8.     public static String decode(String in) {   
  9.         try {   
  10.             return decode(in.toCharArray());   
  11.         } catch (Exception e) {   
  12.             e.printStackTrace();   
  13.         }   
  14.         return in;   
  15.     }   
  16.   
  17.     private static String decode(char[] in) throws Exception {   
  18.         int off = 0;   
  19.         char c;   
  20.         char[] out = new char[in.length];   
  21.         int outLen = 0;   
  22.         while (off < in.length) {   
  23.             c = in[off++];   
  24.             if (c == '\\') {   
  25.                 if (in.length > off) { // 是否有下一个字符   
  26.                     c = in[off++]; // 取出下一个字符   
  27.                 } else {   
  28.                     out[outLen++] = '\\'; // 末字符为'\',返回   
  29.                     break;   
  30.                 }   
  31.                 if (c == 'u') { // 如果是"\\u"   
  32.                     int value = 0;   
  33.                     if (in.length > off + 4) { // 判断"\\u"后边是否有四个字符   
  34.                         boolean isUnicode = true;   
  35.                         for (int i = 0; i < 4; i++) { // 遍历四个字符   
  36.                             c = in[off++];   
  37.                             switch (c) {   
  38.                             case '0':   
  39.                             case '1':   
  40.                             case '2':   
  41.                             case '3':   
  42.                             case '4':   
  43.                             case '5':   
  44.                             case '6':   
  45.                             case '7':   
  46.                             case '8':   
  47.                             case '9':   
  48.                                 value = (value << 4) + c - '0';   
  49.                                 break;   
  50.                             case 'a':   
  51.                             case 'b':   
  52.                             case 'c':   
  53.                             case 'd':   
  54.                             case 'e':   
  55.                             case 'f':   
  56.                                 value = (value << 4) + 10 + c - 'a';   
  57.                                 break;   
  58.                             case 'A':   
  59.                             case 'B':   
  60.                             case 'C':   
  61.                             case 'D':   
  62.                             case 'E':   
  63.                             case 'F':   
  64.                                 value = (value << 4) + 10 + c - 'A';   
  65.                                 break;   
  66.                             default:   
  67.                                 isUnicode = false// 判断是否为unicode码   
  68.                             }   
  69.                         }   
  70.                         if (isUnicode) { // 是unicode码转换为字符   
  71.                             out[outLen++] = (char) value;   
  72.                         } else { // 不是unicode码把"\\uXXXX"填入返回值   
  73.                             off = off - 4;   
  74.                             out[outLen++] = '\\';   
  75.                             out[outLen++] = 'u';   
  76.                             out[outLen++] = in[off++];   
  77.                         }   
  78.                     } else { // 不够四个字符则把"\\u"放入返回结果并继续   
  79.                         out[outLen++] = '\\';   
  80.                         out[outLen++] = 'u';   
  81.                         continue;   
  82.                     }   
  83.                 } else {   
  84.                     switch (c) { // 判断"\\"后边是否接特殊字符,回车,tab一类的   
  85.                     case 't':   
  86.                         c = '\t';   
  87.                         out[outLen++] = c;   
  88.                         break;   
  89.                     case 'r':   
  90.                         c = '\r';   
  91.                         out[outLen++] = c;   
  92.                         break;   
  93.                     case 'n':   
  94.                         c = '\n';   
  95.                         out[outLen++] = c;   
  96.                         break;   
  97.                     case 'f':   
  98.                         c = '\f';   
  99.                         out[outLen++] = c;   
  100.                         break;   
  101.                     default:   
  102.                         out[outLen++] = '\\';   
  103.                         out[outLen++] = c;   
  104.                         break;   
  105.                     }   
  106.                 }   
  107.             } else {   
  108.                 out[outLen++] = (char) c;   
  109.             }   
  110.         }   
  111.         return new String(out, 0, outLen);   
  112.     }   
  113. }  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值