最近做word转html,word2003倒没什么问题,word2007转成html,发现中文全都是㍌之类的。
后来在网查了些资料总结了下解决方法
java解决方法:
String regExp = "&#\\d*;";
Matcher m = Pattern.compile(regExp).matcher(”数字“);
StringBuffer sb1 = new StringBuffer();
while (m.find()) {
String s = m.group(0);
s = s.replaceAll("(&#)|;", "");
char c = (char) Integer.parseInt(s);
m.appendReplacement(sb1, Character.toString(c));
}
m.appendTail(sb1);
js解决方法:
var txt = '【题文】666666';
var divObj = document.createElement("div");
divObj.innerHTML = txt;
alert(divObj.innerHTML);