关于Big5-HKSCS编码问题

最近,解析指定编码为Big5-HKSCS的xml文件的时(用Xerces),遇到了编码问题,也就是说不支持这种编码。后来在网上遍找解决方案:builder.setFeature("http://apache.org/xml/features/allow-java-encodings", true);
虽然解决了,但还是有些稀里糊涂。于是就仔细跟踪了一下Xerces的实现,总结了如下一些:
1.xml文件中 <?xml version="1.0" encoding="UTF-8" ?> encoding 声明的字符编码应是按照IANA标准的
http://www.iana.org/assignments/character-sets

2.当Xerces解析xml文件时,需要将IANA的编码名称转换为JAVA可识别的名称才能进行解析(因为内容的操作毕竟还是java实现的)。

3.Xerces维护了一个IANA和java的字符编码名称的映射表。可以很方便的根据IANA的编码名称获取对应的JAVA的编码名称,然后就可以解析了。
4.遇到映射表中没有的字符编码时,会来判断allow-java-encodings的状态,如果是false,则会给出错误报告:不能识别这个编码。而如果是true时,则直接让java用这个编码名称去解析。而实际能否解析正确 则取决于当前的jdk是否支持这一编码。

关于Big5-HKSCS编码:
这是香港用的编码, (http://www.iana.org/assignments/charset-reg/Big5-HKSCS)
To facilitate electronic communication in the Hong Kong Special Administrative Region (SAR), the Hong Kong Supplementary Character Set (HKSCS), a supplement to the standard character set of Big-5, was developed in 1999.  This supplementary character set includes characters collected from various sectors in Hong Kong and
represents a common set for the community.  It has been widely used in Hong Kong.
    
根据各方面的信息来看,在Xerces发布的时候,这个编码可能还没有正式发布,因此,Xerces的映射表中也就没有这一编码。当然,Xerces的开发人员这一做法还是很巧妙的,后来的新字符都可以通过allow-java-encodings来解决,但前提是jdk必须支持这一编码(这可以通过java.nio.charset.Charset.isSupported() 来判断)    
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值