一 原理
环境:
Page : Jsp,Html
Server: Tomcat
DB : Informix
Jsp 文件中需添加
<%@page contentType="text/html;charset=gb2312" %>
才能正确显示中文的GBK编码
Html文件中需添加
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
才能正确显示中文的GBK编码
一般编码过程:
1 在jsp页面输入字符串(含中文或者其它),提交
2 后台将字符串转换成unicode编码的ISO字符集,
如果是中文,则每个字是两个字节,编码形式为:0x01**,即高8位为00000001,
如果是英文,则每个字是两个字节,编码形式为:0x00**,即高8位为00000000,。
因为在java中每个字符是16位,2个字节,(设i为子符在字符串中的位置)
则对应汉字字符串中的每个子符:String.charAt(i)>511
则对应英文字符串中的每个子符:String.charAt(i)<512
3 字符串存入数据库
如果字符串中有汉字并且其编码为ISO编码,则JDBC首先将其由ISO编码转为GBK编码,因此在数据库中显示正常。但是如果字符串中的汉字编码是GBK编码(经过转换),此时,JDBC却以ISO编码格式将其转换为GBK编码格式,存入数据库,则变成乱码。如果是英文,其本身即是ISO编码.
4 从数据库里取出字符串
如果字符串中有汉字且其编码为GBK编码,JDBC首先将其由GBK编码转为ISO编码,这时,如果不转换成GBK编码,jsp页面将无法正确显示.当然,数据库里如果已经是乱码,那么将无法逆转回来。
所以,在从数据库取出数据时,我们可以先判断该字符串是否有汉字的unicode编码的ISO字符集,如果String.charAt(i)>511,则将其转换成GBK编码,参见
String对象的getBytes()方法
注意两点:
1 英文字符可以多次转换,不受影响
2 中文子符可以由GBK编码转为ISO编码,再逆转,但是如果将中文字符两次以上转为同一类型,将会出错,变成乱码,且不能还原。例如,连续两次由ISO编码转为GBK编码,那么显示为乱码,且无法逆转回原码。因此,在转换前必须判断是否
已经转换过。
二 方法
在我们的编程环境中,为了正确显示中文,遵循如下原则:
存入数据是 GBKToUnicode 方法 由GBK编码转为ISO编码
取出数据是 unicodeToGBK 方法 由ISO编码转为GBK编码
因此以下文件做了调整
1 *Schema.java 文件中
get字段名() 方法中,加入StrTool.unicodeToGBK()转换
目的:将传出的字段的值转换编码
encode () 方法中,加入StrTool.unicodeToGBK()转换
目的:将传出的字符串转换编码
decode () 方法中,加入StrTool.GBKToUnicode()转换
目的:将传入的字符串转换编码
getV () 方法中,加入StrTool.GBKToUnicode()转换
目的:将传入的字符串转换编码,直接操作数据库的函数,因此无需在
set字段名() 方法中转换编码
2 *DB.java 文件中
executeQuery()方法中,加入StrTool.GBKToUnicode()转换
目的:对传入的查询字符串转换编码
3 ExeSQL.java 文件中
getOneValue ()方法中,加入StrTool.GBKToUnicode()转换
目的:对传入的查询字符串转换编码