Unicode转义(\uXXXX)的编码和解码

在涉及Web前端开发时, 有时会遇到\uXXXX格式表示的字符, 其中XXXX是16进制数字的字符串表示形式, 在js中这个叫Unicode转义字符, 和\n \r同属于转义字符. 在其他语言中也有类似的, 可能还有其它变形的格式.

多数时候遇到需要解码的情况多点, 所以会先介绍解码decode, 后介绍编码encode.

下文会提供Javascript C# Java三种语言下不同方法的实现和简单说明, 会涉及到正则和位运算的典型用法.

Javascript的实现

解码的实现

1
2
3
 
  1. function decode(s) {

  2. return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1'));

  3. }

  4.  

unescape是用来处理%uXXXX这样格式的字符串, 将\uXXXX替换成%uXXXXunescape就可以处理了.

编码的实现

1
2
3
4
5
 
  1. function encode1(s) {

  2. return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {

  3. return $1 && '\\' + $1.toLowerCase() || unescape($2);

  4. });

  5. }

  6.  

和解码中相对应, 使用escape编码, 然后将%uXXXX替换为\uXXXX, 因为escape还可能把一些字符编码成%XX的格式, 所以这些字符还需要使用unescape还原回来.

escape编码结果%uXXXX中的XXXX是大写的, 所以后面的replace只处理大写的A-F.

另一种编码的实现

不使用正则和escape

1
2
3
4
5
6
7
8
9
10
11
12
13
14
 
  1. function encode2(s) {

  2. var i, c, ret = [],

  3. pad = '000';

  4. for (i = 0; i < s.length; i++) {

  5. c = s.charCodeAt(i);

  6. if (c > 256) {

  7. c = c.toString(16);

  8. ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;

  9. } else {

  10. ret[i] = s[i];

  11. }

  12. }

  13. return ret.join('');

  14. }

  15.  

遍历字符串中的字符, 那些charCode大于256的会转换成16进制字符串c.toString(16), 如果不足4位则左边补0pad.substr(0, 4 - c.length). 结尾将遍历的结果合并成字符串返回.

C#的实现

解码的实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
 
  1. static Regex reUnicode = new Regex(@"\\u([0-9a-fA-F]{4})", RegexOptions.Compiled);

  2.  
  3. public static string Decode(string s)

  4. {

  5. return reUnicode.Replace(s, m =>

  6. {

  7. short c;

  8. if (short.TryParse(m.Groups[1].Value, System.Globalization.NumberStyles.HexNumber, CultureInfo.InvariantCulture,out c))

  9. {

  10. return "" + (char)c;

  11. }

  12. return m.Value;

  13. });

  14. }

  15.  

正则和js中的一样, 将XXXX转换以16进制System.Globalization.NumberStyles.HexNumber解析为short类型, 然后直接(char)c就能转换成对应的字符, "" + (char)c用于转换成字符串类型返回.

由于正则中也有\uXXXX, 所以需要写成\\uXXXX来表示匹配字符串\uXXXX, 而不是具体的字符.

上面使用到了Lambda, 需要至少dotnet 4的SDK才能编译通过, 可以在dotnet 2下运行.

编码的实现

1
2
3
4
5
6
 
  1. static Regex reUnicodeChar = new Regex(@"[^\u0000-\u00ff]", RegexOptions.Compiled);

  2.  
  3. public static string Encode(string s)

  4. {

  5. return reUnicodeChar.Replace(s, m => string.Format(@"\u{0:x4}", (short)m.Value[0]));

  6. }

  7.  

和C#的解码实现正好相反, 0-255之外的字符, 从char转换成short, 然后string.Format以16进制, 至少输出4位.

Java的实现

解码的实现

和C#相似的, 使用正则

1
2
3
4
5
6
7
8
9
10
11
12
 
  1. static final Pattern reUnicode = Pattern.compile("\\\\u([0-9a-zA-Z]{4})");

  2.  
  3. public static String decode1(String s) {

  4. Matcher m = reUnicode.matcher(s);

  5. StringBuffer sb = new StringBuffer(s.length());

  6. while (m.find()) {

  7. m.appendReplacement(sb,

  8. Character.toString((char) Integer.parseInt(m.group(1), 16)));

  9. }

  10. m.appendTail(sb);

  11. return sb.toString();

  12. }

  13.  

Java语言没有内嵌正则语法, 也没有类似C#的@"\u1234"原始形式字符串的语法, 所以要表示正则中匹配\, 就需要\\\\, 其中2个是用于Java中字符转义, 2个是正则中的字符转义.

Java语言中没有设计函数或者委托的语法, 所以它的正则库提供的是find appendReplacement appendTail这些方法的组合, 等价于js和C#中的replace.

这里使用StringBuffer类型是由于appendReplacement只接受这个类型, StringBuffer有线程安全的额外操作, 所以性能差一点. 也许第三方的正则库能把API设计的更好用点.

Integer.parseInt(m.group(1), 16)用于解析为int类型, 之后再(char), 以及Character.toString转换成字符串.

解码的另一种实现

因为StringBuffer的原因, 不使用正则的实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
 
  1. public static String decode2(String s) {

  2. StringBuilder sb = new StringBuilder(s.length());

  3. char[] chars = s.toCharArray();

  4. for (int i = 0; i < chars.length; i++) {

  5. char c = chars[i];

  6. if (c == '\\' && chars[i + 1] == 'u') {

  7. char cc = 0;

  8. for (int j = 0; j < 4; j++) {

  9. char ch = Character.toLowerCase(chars[i + 2 + j]);

  10. if ('0' <= ch && ch <= '9' || 'a' <= ch && ch <= 'f') {

  11. cc |= (Character.digit(ch, 16) << (3 - j) * 4);

  12. } else {

  13. cc = 0;

  14. break;

  15. }

  16. }

  17. if (cc > 0) {

  18. i += 5;

  19. sb.append(cc);

  20. continue;

  21. }

  22. }

  23. sb.append(c);

  24. }

  25. return sb.toString();

  26. }

  27.  

手工做就是麻烦很多, 代码中也一坨的符号.

遍历所有字符chars, 检测到\u这样的字符串, 检测后续的4个字符是否是16进制数字的字符表示. 因为Character.isDigit会把一些其它语系的数字也算进来, 所以保险的做法'0' <= ch && ch <= '9'.

Character.digit会把0-9返回为int类型的0-9, 第2个参数是16时会把a-f返回为int类型的10-15.

剩下的就是用|=把各个部分的数字合并到一起, 转换成char类型. 还有一些调整遍历位置等.

编码的实现

考虑到Java正则的杯具, 还是继续手工来吧, 相对解码来说代码少点.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 
  1. public static String encode(String s) {

  2. StringBuilder sb = new StringBuilder(s.length() * 3);

  3. for (char c : s.toCharArray()) {

  4. if (c < 256) {

  5. sb.append(c);

  6. } else {

  7. sb.append("\\u");

  8. sb.append(Character.forDigit((c >>> 12) & 0xf, 16));

  9. sb.append(Character.forDigit((c >>> 8) & 0xf, 16));

  10. sb.append(Character.forDigit((c >>> 4) & 0xf, 16));

  11. sb.append(Character.forDigit((c) & 0xf, 16));

  12. }

  13. }

  14. return sb.toString();

  15. }

  16.  

对应于上文Java编码的实现正好是反向的实现, 依旧遍历字符, 遇到大于256的字符, 用位运算提取出4部分并使用Character.forDigit转换成16进制数对应的字符.

剩下就是sb.toString()返回了.

总结

  • 编码从逻辑上比解码简单点.
  • 对付字符串, js还是最顺手的, 也方便测试.
  • 位运算的性能很高.
  • Java的正则库设计的很不方便, 可以考虑第三方.
  • Java的语法设计现在看来呆板, 落后, 也没有js那种灵活.
  • 上文Java的非正则实现可以写成等价的C#代码.

转:http://netwjx.github.io/blog/2012/07/07/encode-and-decode-unicode-escape-string/

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值