GB编码(转)

GB中文编码发展过程:GB2312-->GBK-->GB18030

GB2312字符集
作用:国家简体中文字符集,兼容ASCII
位数:使用2个字节表示,能表示7445个符号,包括6763个汉字,几乎覆盖所有高频率汉字。

范围:高字节从A1F7, 低字节从A1FE。将高字节和低字节分别加上0XA0即可得到编码。 

GBK字符集
作用:它是GB2312的扩展,加入对繁体字的支持,兼容GB2312
位数:使用2个字节表示,可表示21886个字符。
范围:高字节从81FE,低字节从40FE

GB18030字符集
作用:它解决了中文、日文、朝鲜语等的编码,兼容GBK
位数:它采用变字节表示(1 ASCII24字节)。可表示27484个文字。

范围:1字节从007F; 2字节高字节从81FE,低字节从407E80FE4字节第一三字节从81FE,第二四字节从3039

GB编码方式:分一字节编码,即ASCII和双字节编码。

以GBK为例:

字符有一字节和双字节编码,007F范围内是一位,和ASCII保持一致,此范围内严格上说有96个文字和32个控制符号。

之后的双字节中,前一字节是双字节的第一位。总体上说第一字节的范围是81FE(也就是不含80FF),第二字节的一部分领域在40FE,其他领域在80FE

具体来说,定义的是下列字节:

GBK的编码范围
范围第1字节第2字节编码数字数
水准 GBK/1A1A9A1FE846717
水准 GBK/2B0F7A1FE6,7686,763
水准 GBK/381A040FE (7F除外)6,0806,080
水准 GBK/4AAFE40A0 (7F除外)8,1608,160
水准 GBK/5A8A940A0 (7F除外)192166
用户定义AAAFA1FE564
用户定义F8FEA1FE658
用户定义A1A740A0 (7F除外)672
合计:23,94021,886

双字节符号可以表达的64K空间如下图所示。绿色和黄色区域是GBK的编码,红色是用户定义区域。没有颜色区域是不正确的代码组合。

GBK encoding zh.svg
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值