用一段时间在使用JSF的时候发现了这样一个问题,在用链接传递带中文的参数时,接收时会得到类似 &#nnnnn;的字元, java无法解析和使用,这两天有时间研究了一下,发现只有在使用myfaces 1.1.3 时的时候才会有这个问题,而&#nnnnn; 中的n 其实是中文的unicode 码的十进制,我参考了些资料,写了个转换的类请大家指教
/***/
/**
*将中文转成浏览器可以自动编解码的
*类似&#nnnnn;的字元
*
*/
public static Stringgb2Unicode(Strings) ... {
StringBufferretstr=newStringBuffer();
for(inti=0;i<s.length();i++)...{
charc=s.charAt(i);
if(c>=0&&c<=255)...{
retstr.append(c);
}else...{
retstr.append("&#").append(Integer.toString(s.charAt(i))).append(";");
}
}
returnretstr.toString();
}
/**/ /*
*将浏览器可以自动编解码的类似&#nnnnn;的字元转成中文的
*例如:"基金"得到的中文字为"基金"
*/
public static Stringunicode2Gb(Strings) ... {
StringBufferretstr=newStringBuffer();
StringregEx="^&#\d{5};$";
Patternp=Pattern.compile(regEx);
for(inti=0;i<s.length();)...{
if(s.charAt(i)=='&')...{
Stringtmp=s.substring(i,i+8);
Matcherm=p.matcher(tmp);
if(m.find())...{
intj=Integer.parseInt(tmp.substring(2,7));
retstr.append((char)j);
i+=8;
}else...{
retstr.append(s.charAt(i));
i++;
}
}else...{
retstr.append(s.charAt(i));
i++;
}
}
returnretstr.toString();
}
/**/ /*
*将unicode码转成中文的
*例如:"䟺"得到的中文字为"基"
*/
public static Stringconvert(Stringsource) ... {
if(null==source||"".equals(source))...{
returnsource;
}
StringBuffersb=newStringBuffer();
inti=0;
while(i<source.length())...{
if(source.charAt(i)=='\')...{
System.out.println(source.substring(i+2,i+6));
intj=Integer.parseInt(source.substring(i+2,i+6),16);
sb.append((char)j);
i+=6;
}else...{
sb.append(source.charAt(i));
i++;
}
}
returnsb.toString();
}
/***/ /**
*
*测试方法
*/
public static void main(String[]args) throws UnsupportedEncodingException ... {
Stringji="基金宝典";
Stringuji=gb2Unicode(ji);
System.out.println(uji);
System.out.println(unicode2Gb(uji));
}
*将中文转成浏览器可以自动编解码的
*类似&#nnnnn;的字元
*
*/
public static Stringgb2Unicode(Strings) ... {
StringBufferretstr=newStringBuffer();
for(inti=0;i<s.length();i++)...{
charc=s.charAt(i);
if(c>=0&&c<=255)...{
retstr.append(c);
}else...{
retstr.append("&#").append(Integer.toString(s.charAt(i))).append(";");
}
}
returnretstr.toString();
}
/**/ /*
*将浏览器可以自动编解码的类似&#nnnnn;的字元转成中文的
*例如:"基金"得到的中文字为"基金"
*/
public static Stringunicode2Gb(Strings) ... {
StringBufferretstr=newStringBuffer();
StringregEx="^&#\d{5};$";
Patternp=Pattern.compile(regEx);
for(inti=0;i<s.length();)...{
if(s.charAt(i)=='&')...{
Stringtmp=s.substring(i,i+8);
Matcherm=p.matcher(tmp);
if(m.find())...{
intj=Integer.parseInt(tmp.substring(2,7));
retstr.append((char)j);
i+=8;
}else...{
retstr.append(s.charAt(i));
i++;
}
}else...{
retstr.append(s.charAt(i));
i++;
}
}
returnretstr.toString();
}
/**/ /*
*将unicode码转成中文的
*例如:"䟺"得到的中文字为"基"
*/
public static Stringconvert(Stringsource) ... {
if(null==source||"".equals(source))...{
returnsource;
}
StringBuffersb=newStringBuffer();
inti=0;
while(i<source.length())...{
if(source.charAt(i)=='\')...{
System.out.println(source.substring(i+2,i+6));
intj=Integer.parseInt(source.substring(i+2,i+6),16);
sb.append((char)j);
i+=6;
}else...{
sb.append(source.charAt(i));
i++;
}
}
returnsb.toString();
}
/***/ /**
*
*测试方法
*/
public static void main(String[]args) throws UnsupportedEncodingException ... {
Stringji="基金宝典";
Stringuji=gb2Unicode(ji);
System.out.println(uji);
System.out.println(unicode2Gb(uji));
}
最近在网上发现有人解决相同的问题而且很高效,不过使用ASP,引用一下供参考
问题:
请教一个问题。如附件的图片所示,写一个字符串作为html的源文件,内容是吱吲,在IE上打开网页会自动显示为汉字:“吱吲”
这是因为IE会自动把吱吲转换为汉字显示。
我的问题是,如何高效地做一个反过程?比如给一个字符串“吱吲”,要转换为:吱吲
在asp和javascript中其实都很容易可以实现,asp用ascW(),java用charCodeAt(),得到一个字符的ascii编码,然后根据字符串长度给一个循环就搞定了。
但是问题来了,如果给的字符串不仅仅是“吱吲”,而是一篇有几万字的文章,也就是说转换编码的时候要运行几万次循环。
请帮忙看看有没有什么高效的方法可以不使用循环就把字符串转为&#xxxxx;的格式?不知道asp/javascript有没有相关的函数?就好比如IE浏览器可以很快就加载上万字的&#xxxxx;格式的内容而不占多少CPU。
这是因为IE会自动把吱吲转换为汉字显示。
我的问题是,如何高效地做一个反过程?比如给一个字符串“吱吲”,要转换为:吱吲
在asp和javascript中其实都很容易可以实现,asp用ascW(),java用charCodeAt(),得到一个字符的ascii编码,然后根据字符串长度给一个循环就搞定了。
但是问题来了,如果给的字符串不仅仅是“吱吲”,而是一篇有几万字的文章,也就是说转换编码的时候要运行几万次循环。
请帮忙看看有没有什么高效的方法可以不使用循环就把字符串转为&#xxxxx;的格式?不知道asp/javascript有没有相关的函数?就好比如IE浏览器可以很快就加载上万字的&#xxxxx;格式的内容而不占多少CPU。
已经自己搞定了!用escape函数转换,然后把&u替换为&#X即可。这样就可以不使用到循环了。测试转换1万个字还没有用1秒钟,以前要用3分钟。
贴出代码给大家分享!这是实现NCR编码的方式,可以保证在任何网页编码中都正常显示字符而不会乱码!
这个效率应该是最高了,实际测试转换一篇几万字的文章还不用1秒。而以前用循环的方式来做,少则要几分钟,经常导致服务器死机!
顺便推荐一下我制作的手机新闻网站3g网(3gONE.net),你可以用手机来浏览csdn、各种分类新闻啦,如果你用PDA的话,还可以离线浏览新闻资讯呢!
请大家多提提建议!
unctionNCR_CODE(str)'
str=escape(str)
DimobjRegExp,Match,Matches
SetobjRegExp=NewRegexp
objRegExp.IgnoreCase=True
objRegExp.Global=True
objRegExp.Pattern="%u([0-f][0-f][0-f][0-f])"
str=objRegExp.Replace(str,"#&x$1;")
objRegExp.Pattern="%([0-f][0-f])"
NCR_CODE=objRegExp.Replace(str,"#&x$1;")
endfunction
贴出代码给大家分享!这是实现NCR编码的方式,可以保证在任何网页编码中都正常显示字符而不会乱码!
这个效率应该是最高了,实际测试转换一篇几万字的文章还不用1秒。而以前用循环的方式来做,少则要几分钟,经常导致服务器死机!
顺便推荐一下我制作的手机新闻网站3g网(3gONE.net),你可以用手机来浏览csdn、各种分类新闻啦,如果你用PDA的话,还可以离线浏览新闻资讯呢!
请大家多提提建议!
unctionNCR_CODE(str)'
str=escape(str)
DimobjRegExp,Match,Matches
SetobjRegExp=NewRegexp
objRegExp.IgnoreCase=True
objRegExp.Global=True
objRegExp.Pattern="%u([0-f][0-f][0-f][0-f])"
str=objRegExp.Replace(str,"#&x$1;")
objRegExp.Pattern="%([0-f][0-f])"
NCR_CODE=objRegExp.Replace(str,"#&x$1;")
endfunction