了解编码:
ASCII编码是目前计算机中用得最广泛的字符集及其编码;
ISO8859-1可以表示的是西欧语言;GB2312字集是简体字集;BIG5字集是台湾繁体字集;GBK字集是简繁字集;
Linux系统默认使用的是ISO-8859-1编码,Win32系统默认使用的是GB2312编码。
Java的内核和class文件是基于unicode。
乱码的产生:
统一系统的输入、输出和操作系统是解决乱码的基本方法,产生乱码的根本问题是字节与字符的转换过程中,你必须知道原来字节和转换后的字节的编码方式。
两类乱码:
1. java和jsp的源文件的保存方式是基于字节流的,如果编译的时候使用的编码方式和源文件不一样,就会产生乱码;
在文件头加上<%@ page contentType="textml;charset=GBK" %>
2. java和其他存储媒介交互时产生乱码。很多存储媒介如数据库、文件、流等存储方式都是基于字节流的。
Java和这些媒介交互时就会发生字符(char)与字节(byte)之间的转换。
乱码常用解决方法:
jsp与页面参数之间的乱码
强制指定request获取编码的方式:request.setCharacterEncoding("UTF-8");
如果jsp输出到页面出现乱码:response.setCharacterEncoding("UTF-8");
或者在web.xml中配置servlet过滤器filter(仅对POST方式有效,GET方式无效):
<filter>
<filter-name>CharacterEncodingFilter</filter-name>
<filter-class>net.vschool.web.CharacterEncodingFilter</filter-class>
<init-param>
<param-name>encoding</param-name>
<param-value>UTF-8</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>CharacterEncodingFilter</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>
更改Tomact配置文件,server.xml
<Host name="localhost" appBase="webapps"
unpackWARs="true" autoDeploy="true"
xmlValidation="false" xmlNamespaceAware="false" URIEncoding="UTF-8">
URL处理:
<a href="TestAction.do?name=<%=java.net.URLEncoder.encode("你好","UTF-8")%>" ></a>
文件下载乱码:关键是下载时响应头;filename要用URLEncoding进行编码,才能进行HTTP传输。
response.setHeader("Content-disposition", "attachment;filename="+ URLEncoder.encode(fileName,"utf-8"));
Get方式乱码:
String args = new String(strCn.getBytes("ISO-8859-1"),"UTF-8");
Post方式乱码:
只需 request.setCharacterEncoding("UTF-8"); 即可。
java与数据库之间的乱码
直接使用unicode与数据库进行交互,可以在驱动的url中指定,如mysql驱动:
jdbc:mysql://127.0.0.1:3306/database?useUnicode=true&characterEncoding=utf-8