numericcharacterreference(NCR),数字取值为目标字符的Unicodecodepoint;以「&;#」开头的后接十进制数字,以「&;#x」开头的后接十六进制数字。「中国」二字分别是Unicode字符U+4E2D和U+56FD,十六进制表示的codepoint数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。所以——中国中国——这两种NCR写法都会在显示时转换为「中国」二字。
转自&;#x开头的是什么编码呢
我在项目中碰到的情况是在window环境下不会出现这种问题,从前台传过来的文字保存到数据库中编码格式不会转变,但是在Linux下出现文字转变成NCR字符编码格式,在网上找寻了一些方法已经解决,特在此记录。
public class test {
public static void main(String[] args) {
String str = "#20013;国";
String s = str(str);
System.out.print(s);
}
public static String str(String str) {
StringBuffer sb = new StringBuffer();
String myString = str.replace("", "");
String[] split = myString.split(";");
for (int i = 0; i < split.length; i++) {
sb.append((char) Integer.parseInt(split[i]));
}
return sb.toString();
}
}