在做一个项目时,用到日本总公司的数据库,版本orcale 7.2,日文版,客户端Windows XP,IE6,中文版
从数据库局数据时,出现了乱码问题,所以搜集了一些资料,希望对大家有帮助。最后的解决方式很笨,用Hashtable重新对一部分日语字符编码,解码 ,乱码得以解决。
东亚的文字编码系统实在麻烦,具体请参考文献[1]。中国简体文字编码系统主要包括:HKSCS(香港);ISO 2022-CN(GB2312),GB18030,CCSZD 935(IBM),EUC-CN,HZ-GB2312,CP936(GBK),MacChieseSimplified CP10008;繁体字编码系统主要是台湾的BIG5等。自从出现了Unicode,东亚编码终于太平了。Unicode包括UTF-16;UCS-2;UCS-4,具体标准可查资料。
对同一种字符集,内码转换的主要思路是先转换为Unicode,在转换成想要的字符编码。对不同的字符集,需要作映射表才可以。
参考文献:
1. CJK Inf,Ken lunde,Ver2.1 1996, ftp://ftp.ora.com/pub/examples/nutshell/ujip/doc/cjk.inf
2. RFC 1842,Internet RFC/STD/FYI/BCP Archives, http://www.rfc-archive.org/getrfc.php?rfc=1842
3. RFC 1843,Internet RFC/STD/FYI/BCP Archives, http://www.rfc-archive.org/getrfc.php?rfc=1843
4. RFC 1922,Internet RFC/STD/FYI/BCP Archives, http://www.rfc-archive.org/getrfc.php?rfc=1922
5. RFC 2279,Internet RFC/STD/FYI/BCP Archives, http://www.rfc-archive.org/getrfc.php?rfc=2279
6. 内码转换技术 http://www3.ccw.com.cn/club/essence/200311/19312.htm
7. Converting Non-Unicode Text http://java.sun.com/docs/books/tutorial/i18n/text/convertintro.html
8. Multipurpose Internet Mail Extensions, Part One:Format of Internet Message Bodies
http://www.mhonarc.org/~ehood/MIME/2045/rfc2045.html
9. Sun公司的基础类:Converters;UnicodeFormatter;Byte2Char;ByteToCharConverter; ByteToCharDoubleByte;ByteToCharUnicode;ByteToCharUTF8等;