浅谈各编码方式的由来以及各编码之间的关系(二)

5. GB18030

GB18030到目前为止有俩个版本:GB18030-2000和GB18030-2005.

GB18030-2000收录了27533个汉字,而GB18030-2005收录了70244个汉字。 大家知道GB2312虽然收录了大部分的汉字,基本满足需求,但是像一些人名,地名以及古汉语中的罕见字,Gb2312是无法处理的。在这种情况下,就产生了GBK和Gb18030.

这里要注意GBK并不是国家标准,而只是一个具有指导性的规范。

 

Gb18030采用单字节,双字节和四字节三种方式对字符进行编码。单字节部分使用0x00-0x7F,双字节部分,首字节码位从0×81-0×FE,尾字节码位分别是0×40-0×FE(除了0x7F)。四字节部分, 第一和第三字节编码是0x81-0xFE, 第二和第四字节编码码位是0x30-0x39.

 

GB18030单字节部分是与ASCII兼容;双字节部分是与GBK基本兼容;四字节部分,它容纳了Unicode BMP中无法被GBK涵盖的部分

 

GB18030-2005是在GB18030-2000的基础上做如下的调整:

    a. 在四字节字符表中增加CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字字符的字形。其实GB18030-2000已经映射了这些码位,但GB18030-2000没有给出这些字符的字形。 
      b. 调整字符的编码。
      c. 去掉了单字节编码的欧元符号(0x80)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值