numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「」开头的后接十进制数字,以「」开头的后接十六进制数字。
「中国」二字分别是 Unicode 字符 U+4E2D 和 U+56FD,十六进制表示的 code point 数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。所以——
中国中国
——这两种 NCR 写法都会在显示时转换为「中国」二字。
在爬取人人网的学校各个院系名称结果时,得到的数据如下:
院系
临床医学院
交通学院
人文与管理学院
人文学院
这其中形如 '临床医学院' 的便是NCR编码了,使用UNICODE在线转换工具可以将其直接转换为汉字,但事实上它又不是UNICODE,区别似乎就在于Unicode是以u\进行分割,而NCR是以进行分割。后面数字字母内容是一样的, 都有十进制与十六进制两种表示形式
在国内网上搜索NCR编码转换原文字,无果。在stackoverlow上找到了一种方法in JAVA 试了一下可以运行,没想到并不需要什么函数,只要一个(char)的强制转换就行。。虽然原理还是不太完全明白
public static String ConvertDecimalNCRToString(String hex){
String myString = hex.replace("", "");
String[] split = myString.split(";");
StringBuilder sb = new StringBuilder();
for (int i = 0; i
{
sb.append((char)Integer.parseInt(split[i]));
}
return sb.toString();}