java乱码总结

最新推荐文章于 2022-06-21 20:38:02 发布

茄子爱烤火

最新推荐文章于 2022-06-21 20:38:02 发布

阅读量588

点赞数

乱码问题一直困扰着开发人员：下面对java的乱码问题做一个小结：

一、编码的基础概念

首先，要想解决java中文乱码问题就有必要了解一下什么是字符，字符集，编码的概念。字符：是文字与符号的总称，包括文字、图形符号、数学符号等。字符集：就是一组抽象字符的集合。字符集常常和一种具体的语言文字对应起来，该文字中的所有字符或者大部分常用字符就构成了该文字的字符集，比如英文字符集。繁体汉字字符集、日文汉字字符集等等。计算机要处理各种字符，就需要将字符和二进制内码对应起来，这种对应关系就是字符编码：制定编码首先要确定字符集，并将字符集内的字符排序，然后和二进制数字对应起来。根据字符集内字符的多少，会确定用几个字节来编码。每种编码都限定了一个明确的字符集合，叫做被编码过的字符集(Coded Character Set)，这是字符集的另外一个含义。通常所说的字符集大多是这个含义。

二、常用的编码方式

其次，要想解决java中文乱码问题也得了解一下我们常用的编码方式：ASCII编码是目前计算机中用得最广泛的字符集及其编码。ISO8859-1可以表示的是西欧语言。看起来很单一为什么还在使用呢？，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用ISO-8859-1编码来表示。而且在很多协议上，默认使用该编码。Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。通常我们所遇到过多UTF-8这是Unicode编码的实现方式，请一定要加以区分。GB2312字集是简体字集;BIG5字集是台湾繁体字集;GBK字集是简繁字集，包括了GB字集、BIG5字集和一些符号GB18030是国家制定的一个强制性大字集标准，它的推出使汉字集有了一个统一的标准。Linux系统默认使用的是ISO-8859-1编码，Win32系统默认使用的是GB2312编码。

Java的内核和class文件是基于unicode

三、常用的乱码解决方法

统一系统的输入、输出和操作系统是解决乱码的基本方法，产生乱码的根本问题是字节与字符的转换过程中，你必须知道原来字节和转换后的字节的编码方式。

两类乱码：

java和jsp的源文件的保存方式是基于字节流的，如果编译的时候使用的编码方式和源文件不一样，就会产生乱码。在文件头加上<%@ page contentType=”text/html;charset=GBK”%>2.java和其他存储媒介交互时产生乱码。很多存储媒介如数据库、文件、流等存储方式都是基于字节流的。Java和这些媒介交互时就会发生字符(char)与字节(byte)之间的转换。

两种方式：

使用string的字节码转换进行字节码转换，破坏对象的封装性。

J2EE容器进行编码设置不符合J2EE应用和容器分离的原则。

这种应用出现乱码的解决办法：

1.jsp与页面参数之间的乱码

强制指定request获取编码的方式：request.setCharacterEncoding(“GBK”)

如果jsp输出到页面出现乱码：response.setCharacterEncoding(“GBK”)

或者在web.xml中配置servlet过滤器filter

web.xml:

<filter><filter-name>CharacterEncodingFilter</filter-name><filter-class>net.vschool.web.CharacterEncodingFilter</filter-class><init-param><param-name>encoding</param-name><param-value>GBK</param-value></init-param></filter><filter-mapping><filter-name>CharacterEncodingFilter</filter-name><url-pattern>/*</url-pattern></filter-mapping>

CharacterEncodingFilter.java:

publicclassCharacterEncodingFilterimplementsFilter
{protectedString encoding =null;publicvoidinit(FilterConfig filterConfig)throwsServletException
{this.encoding = filterConfig.getInitParameter("encoding");
}publicvoiddoFilter(ServletRequest request, ServletResponse response, FilterChain chain)throwsIOException, ServletException
{
request.setCharacterEncoding(encoding);
response.setContentType("text/html;charset="+encoding);
chain.doFilter(request, response);
}

}

2.java与数据库之间的乱码

直接使用unicode与数据库进行交互,可以在驱动的url中指定,如mysql驱动：

Jdbc:mysql://localhost/SRC?useUnicode=true&characterEncoding=GBK

3.java与文件流之间的乱码

FileInputStream/FileOutpuStream是基于字节流(byte)的，常用于读写二进制文件。

FileReader/FileWriter是基于字符(char)的。这两个类的构造函数默认使用系统的编码。

使用它们的父类InputStreamReader/ OutputStreamWriter可以指定编码类型。

InputStreamReader(InputStream in, Charset cs) 和OutputStreamWriter(OutputStream out, Charset cs)

四、解决乱码问题的注意事项

1.一个新的系统，从页面到数据库再到配置文件，建议统一使用UTF-8

2.setCharacterEncodingFilter只对post请求有效，get一律忽略

3. JavaScript和Ajax乱码的避免，注意JavaScript默认是ISO8859的编码，避免JS/AJAX乱码和GET一样，不要在 URL里面使用中文，实在避免不了，就只能在生成链接的时候转码，绝对不能想当然的认为SetCharacterEncodingFilter会帮你做什么事情。

4. 如果在本项目中采用了get方式提交请求并附加参数，结果导致编码乱码，原因是Tomcat默认请求编码是ISO8859，需要在Tomcat的配置文件 server.xml添加一个参数，URIEncoding=”UTF-8”,这样请求中附件的参数就会以UTF-8来进行编码。

5.Ajax请求乱码使用Ajax，JS也是默认使用ISO8859编码，所以在进行请求时遇到中文参数需要进行编码，如：var url = "GetSelectListAction.do?queryData=subTrade" + "&queryId=" + encodeURI(obj.value) + "&r=" + Math.random();这里有两个地方需要注意：第一个地方是encodeURI()，方法，可以将参数进行转码，默认是转化为UTF-8，如果需要转为其他码制，需要在方法中添加第二个参数。第二个地方是Math.random()，由于Ajax有缓存机制，在接受请求的时候第一时间先判断该请求的地址是否被访问过，如果被访问过则直接使用缓存中的内容返回，这个东西很讨厌，客户在访问过一次出错后以后每次出现的都是这个错误，所以在请求中给其增加一个时间戳，只要可以随机生成一个不同的字串就可以，保证Ajax每次都去访问服务器。

5.超长汉字Get乱码

超长的汉字做为参数传递仍然会出现乱码问题，解决方法是采用java.net.URLEncoder的 Encode方法强制转码：