1.引言
所有基于Java的应用程序都面临着一个让初学头痛和不解的中文乱码问题。本问就将揭开Java中文乱码问题由来的神秘面纱,并给出一些常用的解决Java中文乱码问题的解决方案.
2.Java中文乱码问题的由来
Java的内核和.Class文件都是基于Unicode的,这使得Java程序具有良好的跨平台性。但同时也正是由于这个因素,Java与生具来的带来了中文乱码的缺陷。产生乱码的因素有二。第一:Java和Jsp文件本身在编译时产生的乱码;第二:Java程序和其他媒介(如:数据库等)交互时产生的乱码.
3.解决方法
3.1 解决JSP页面中文显示乱码问题(局限于静态文本)
可在JSP页面中使用<%@ page>指令页面的字符编码集.如下所示:
<%@ page contentType="text/html;charset=GBK"%>
3.2 解决JSP中文显示乱码问题(局限于动态文本)
方法一:
<%= new String(request.getParameter("your_name").getBytes("8859_1"),"GB2312") %>
方法二:
<% request.setCharacterEncoding("GB2312");%>
3.3 通过Tomcat解决JSP静态文本乱码问题
修改Tomcat的server.xml文件,如下所示:
<Connector port="80" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
debug="0" connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="GBK"
/>
3.4 通过Struts提供的过滤器机制解决JSP动态文本乱码问题
在Web描述符配置文件中,做如下配置:
<!-- 字符编码转换过滤器 -->
<filter>
<filter-name>EncodingFilter</filter-name>
<filter-class>com.eRedLab.eRedCIP.system.filter.SetCharacterEncodingFilter</filter-class>
<init-param>
<param-name>encoding</param-name>
<param-value>GBK</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>EncodingFilter</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>
SetCharacterEncodingFilter类具体代码:略
4.结束语
根据不同的Java应用环境,Java中文乱码的表现形式也形色各异。但只要我们掌握了其核心原理以及编码转换的通用方法,我们就可以在处理字符问题的时候以不变应万变,应对自如!
5.附录 几种常用的自符集编码转换方法
/**
* 转换编码 ISO-8859-1到GB2312
*/
public String ISO2GB(String text) {
String result = "";
try {
result = new String(text.getBytes("ISO-8859-1"), "GB2312");
}
catch (UnsupportedEncodingException ex) {
result = ex.toString();
}
return result;
}
/**
* 转换编码 GB2312到ISO-8859-1
*/
public String GB2ISO(String text) {
String result = "";
try {
result = new String(text.getBytes("GB2312"), "ISO-8859-1");
}
catch (UnsupportedEncodingException ex) {
ex.printStackTrace();
}
return result;
}
/**
* Utf8URL编码
*/
public String Utf8URLencode(String text) {
StringBuffer result = new StringBuffer();
for (int i = 0; i < text.length(); i++) {
char c = text.charAt(i);
if (c >= 0 && c <= 255) {
result.append(c);
}else {
byte[] b = new byte[0];
try {
b = Character.toString(c).getBytes("UTF-8");
}catch (Exception ex) {
}
for (int j = 0; j < b.length; j++) {
int k = b[j];
if (k < 0) k += 256;
result.append("%" + Integer.toHexString(k).toUpperCase());
}
}
}
return result.toString();
}
/**
* Utf8URL解码
*/
public String Utf8URLdecode(String text) {
String result = "";
int p = 0;
if (text!=null && text.length()>0){
text = text.toLowerCase();
p = text.indexOf("%e");
if (p == -1) return text;
while (p != -1) {
result += text.substring(0, p);
text = text.substring(p, text.length());
if (text == "" || text.length() < 9) return result;
result += CodeToWord(text.substring(0, 9));
text = text.substring(9, text.length());
p = text.indexOf("%e");
}
}
return result + text;
}
所有基于Java的应用程序都面临着一个让初学头痛和不解的中文乱码问题。本问就将揭开Java中文乱码问题由来的神秘面纱,并给出一些常用的解决Java中文乱码问题的解决方案.
2.Java中文乱码问题的由来
Java的内核和.Class文件都是基于Unicode的,这使得Java程序具有良好的跨平台性。但同时也正是由于这个因素,Java与生具来的带来了中文乱码的缺陷。产生乱码的因素有二。第一:Java和Jsp文件本身在编译时产生的乱码;第二:Java程序和其他媒介(如:数据库等)交互时产生的乱码.
3.解决方法
3.1 解决JSP页面中文显示乱码问题(局限于静态文本)
可在JSP页面中使用<%@ page>指令页面的字符编码集.如下所示:
<%@ page contentType="text/html;charset=GBK"%>
3.2 解决JSP中文显示乱码问题(局限于动态文本)
方法一:
<%= new String(request.getParameter("your_name").getBytes("8859_1"),"GB2312") %>
方法二:
<% request.setCharacterEncoding("GB2312");%>
3.3 通过Tomcat解决JSP静态文本乱码问题
修改Tomcat的server.xml文件,如下所示:
<Connector port="80" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
debug="0" connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="GBK"
/>
3.4 通过Struts提供的过滤器机制解决JSP动态文本乱码问题
在Web描述符配置文件中,做如下配置:
<!-- 字符编码转换过滤器 -->
<filter>
<filter-name>EncodingFilter</filter-name>
<filter-class>com.eRedLab.eRedCIP.system.filter.SetCharacterEncodingFilter</filter-class>
<init-param>
<param-name>encoding</param-name>
<param-value>GBK</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>EncodingFilter</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>
SetCharacterEncodingFilter类具体代码:略
4.结束语
根据不同的Java应用环境,Java中文乱码的表现形式也形色各异。但只要我们掌握了其核心原理以及编码转换的通用方法,我们就可以在处理字符问题的时候以不变应万变,应对自如!
5.附录 几种常用的自符集编码转换方法
/**
* 转换编码 ISO-8859-1到GB2312
*/
public String ISO2GB(String text) {
String result = "";
try {
result = new String(text.getBytes("ISO-8859-1"), "GB2312");
}
catch (UnsupportedEncodingException ex) {
result = ex.toString();
}
return result;
}
/**
* 转换编码 GB2312到ISO-8859-1
*/
public String GB2ISO(String text) {
String result = "";
try {
result = new String(text.getBytes("GB2312"), "ISO-8859-1");
}
catch (UnsupportedEncodingException ex) {
ex.printStackTrace();
}
return result;
}
/**
* Utf8URL编码
*/
public String Utf8URLencode(String text) {
StringBuffer result = new StringBuffer();
for (int i = 0; i < text.length(); i++) {
char c = text.charAt(i);
if (c >= 0 && c <= 255) {
result.append(c);
}else {
byte[] b = new byte[0];
try {
b = Character.toString(c).getBytes("UTF-8");
}catch (Exception ex) {
}
for (int j = 0; j < b.length; j++) {
int k = b[j];
if (k < 0) k += 256;
result.append("%" + Integer.toHexString(k).toUpperCase());
}
}
}
return result.toString();
}
/**
* Utf8URL解码
*/
public String Utf8URLdecode(String text) {
String result = "";
int p = 0;
if (text!=null && text.length()>0){
text = text.toLowerCase();
p = text.indexOf("%e");
if (p == -1) return text;
while (p != -1) {
result += text.substring(0, p);
text = text.substring(p, text.length());
if (text == "" || text.length() < 9) return result;
result += CodeToWord(text.substring(0, 9));
text = text.substring(9, text.length());
p = text.indexOf("%e");
}
}
return result + text;
}