问: 当用JDBC向数据库中插入数据或从数据库中提取数据时,为何有时中文字符会显示为乱码?
答:
这个问题的实现通常与各个JDBC driver的实现有关. 目前大多数JDBC driver采用本地编码格式来传输中文字符,例如中文字符"0x4175"会被转成"0x41"和"0x75"进行传输. 因此我们需要对JDBC driver返回的字符以及要发给JDBC driver的字符进行转换.
当用JDBC driver向数据库中插入数据时,需要先将Unicode转成native code; 当 JDBC driver从数据库中查询数据时,则需要将native code转换成Unicode. 下面给出了这两种转换的实现:
String native2Unicode(String s) {
if (s == null || s.length() == 0) {
return null;
}
byte[] buffer = new byte[s.length()];
for (int i = 0; i s.length(); i++) { if (s.charAt(i)>= 0x100) {
c = s.charAt(i);
byte []buf = (""+c).getBytes();
buffer[j++] = (char)buf[0];
buffer[j++] = (char)buf[1];
}
else {
buffer[j++] = s.charAt(i);
}
}
return new String(buffer, 0, j);
}
除使用以上两个方法之外,有些JDBC driver如果对jdbc driver Manager设置了正确 的字符集属性,以上2个方法就不需要了.
windows记事本可以将文件内容保存为以下四种编码方式:
1、ANSI,不用说了
2、UNICODE,头两个字节内容为 0xFF 0xFE,对应为 UTF-16LE
3、UNICODE big endian,文字同样为UNICODE编码,只是字节顺序同2相反,以 0xFE 0xFF 开头,对应为 UTF-16BE
4、UTF-8,这种编码方式在<JAVA核心技术 I>上面有讲述,头三个字节为0xEF 0xBB 0xBF, 对应为 UTF-8
处理过程中先读出前三个字节内容判断出编码方式,然后再进行转换。