NCR字符编码(形如xx)转换为汉字 in JAVA

numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,以「&#x」开头的后接十六进制数字。

「中国」二字分别是 Unicode 字符 U+4E2D 和 U+56FD,十六进制表示的 code point 数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。所以——

中国中国

——这两种 NCR 写法都会在显示时转换为「中国」二字。

转自 &#x开头的是什么编码呢。浏览器可以解释它。如中国等同与中文"中国"?

在爬取人人网的学校各个院系名称结果时,得到的数据如下:

<select id='department' name='department' class='select' tabindex='6' onchange='changeDept()'>
<option value=''>&#38498;&#31995;</option>
<option value='&#20020;&#24202;&#21307;&#23398;&#38498;'>&#20020;&#24202;&#21307;&#23398;&#38498;</option>
<option value='&#20132;&#36890;&#23398;&#38498;'>&#20132;&#36890;&#23398;&#38498;</option>
<option value='&#20154;&#25991;&#19982;&#31649;&#29702;&#23398;&#38498;'>&#20154;&#25991;&#19982;&#31649;&#29702;&#23398;&#38498;</option>
<option value='&#20154;&#25991;&#23398;&#38498;'>&#20154;&#25991;&#23398;&#38498;</option>

这其中形如 '&#20020;&#24202;&#21307;&#23398;&#38498;' 的便是NCR编码了,使用UNICODE在线转换工具可以将其直接转换为汉字,但事实上它又不是UNICODE,区别似乎就在于Unicode是以u\进行分割,而NCR是以&#进行分割。后面数字字母内容是一样的, 都有十进制与十六进制两种表示形式

在国内网上搜索NCR编码转换原文字,无果。在stackoverlow上找到了一种方法in JAVA 试了一下可以运行,没想到并不需要什么函数,只要一个(char)的强制转换就行。。虽然原理还是不太完全明白

public static String ConvertDecimalNCRToString(String hex){
    String myString = hex.replace("&#", "");
    String[] split = myString.split(";");
    StringBuilder sb = new StringBuilder();

    for (int i = 0; i < split.length; i++) 
    {
        sb.append((char)Integer.parseInt(split[i]));
    }
    return sb.toString();}

参考链接:Convert Decimal NCRs Code into UTF-8 in java (JSP)

转载于:https://my.oschina.net/u/1766462/blog/666709

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值