一些关于文字编码的资料

在做一个项目时,用到日本总公司的数据库,版本orcale 7.2,日文版,客户端Windows XP,IE6,中文版

从数据库局数据时,出现了乱码问题,所以搜集了一些资料,希望对大家有帮助。最后的解决方式很笨,用Hashtable重新对一部分日语字符编码,解码 ,乱码得以解决。

东亚的文字编码系统实在麻烦,具体请参考文献[1]。中国简体文字编码系统主要包括:HKSCS(香港);ISO 2022-CN(GB2312),GB18030,CCSZD 935(IBM),EUC-CN,HZ-GB2312,CP936(GBK),MacChieseSimplified CP10008;繁体字编码系统主要是台湾的BIG5等。自从出现了Unicode,东亚编码终于太平了。Unicode包括UTF-16;UCS-2;UCS-4,具体标准可查资料。

对同一种字符集,内码转换的主要思路是先转换为Unicode,在转换成想要的字符编码。对不同的字符集,需要作映射表才可以。

参考文献:

1. CJK Inf,Ken lunde,Ver2.1 1996,   ftp://ftp.ora.com/pub/examples/nutshell/ujip/doc/cjk.inf

2. RFC 1842,Internet RFC/STD/FYI/BCP Archives, http://www.rfc-archive.org/getrfc.php?rfc=1842

3. RFC 1843,Internet RFC/STD/FYI/BCP Archives, http://www.rfc-archive.org/getrfc.php?rfc=1843

4. RFC 1922,Internet RFC/STD/FYI/BCP Archives,  http://www.rfc-archive.org/getrfc.php?rfc=1922

5. RFC 2279,Internet RFC/STD/FYI/BCP Archives, http://www.rfc-archive.org/getrfc.php?rfc=2279

6. 内码转换技术    http://www3.ccw.com.cn/club/essence/200311/19312.htm 

7. Converting Non-Unicode Text   http://java.sun.com/docs/books/tutorial/i18n/text/convertintro.html

8. Multipurpose Internet Mail Extensions, Part One:Format of Internet Message Bodies 

http://www.mhonarc.org/~ehood/MIME/2045/rfc2045.html

9. Sun公司的基础类:Converters;UnicodeFormatter;Byte2Char;ByteToCharConverter;  ByteToCharDoubleByte;ByteToCharUnicode;ByteToCharUTF8等;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值