区位码、国标码、机内码、GBK

1980年,为了使每个汉字有一个全国统一的代码,我国颁布了汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集——基本集》,这个字符集是目前国内所有汉字系统的统一标准。它规定了用两个字节来表示一个汉字,每个字节都只能使用低7位,共有128*128种状态,又由于ASCII中的控制代码在汉字系统中也要使用,所以只剩下94*94=8836种状态用来表示国标码规定的6763个汉字和682个全角字符。每个字符都对应了唯一的区位码、国标码和机内码。

区位码

区位码是一个四位的十进制数,前两位叫做区码,后两位叫做位码。区位码共有94个区(行),每个区有94个位(列)。

1~9区特殊字符区
10~15区用户自定义区
16~55区一级汉字
56~87区二级汉字

一级汉字:3755个常用的汉字,按拼音排序;二级汉字:3008个汉字,按部首排序。
为了处理与存储的方便,每个汉字的区号和位号在计算机内部分别用一个字节表示。如,汉字“学”的区号为49,位号为07,区位码为4907D,对应的二进制表示为
00110001 00000111
区位码不能用于通信,因为它可能与通信使用的控制码(00H~1FH)发生冲突。

国标码

为了进行汉字通信,将区位码的区码和位码都加20H,避开了控制码,就得到了国标码。国标码用十六进制表示,如,汉字“学”的国标码为5127H。

机内码

由于汉字与英文字符通常混用,所以汉字信息如不加以特殊标识就会与ASCII码混淆,如汉字“学”的国标码为51 27H,在ASCII中代表“Q”和“‘”。此问题的解决方法之一是将汉字编码每字节的最高位置为1,即国标码两字节分别+80H,则汉字“学”的机内码为D1A7H。
机内码用十六进制表示。
GB2312简体中文编码表机内码对照表。

GBK

GBK是汉字编码标准之一,全称《汉字内码扩展规范》。GBK向下完全兼容GB2312-80编码,另外还支持部分中文姓氏,中文繁体,日文假名,还包括希腊字母以及俄语字母等。
GBK的中文编码是双字节来表示的,英文编码使用ASCII码表示的,即用单字节表示。但GBK编码表中也有英文字符的双字节表示形式,所以英文字母可以有两种GBK表示方式。为区分中英文,将汉字最高位定为1,英文最高位定为0。当用GBK解码时,若高字节最高位为0,则用ASCII码表解码;若高字节最高位为1,则用GBK编码表解码。
GBK的编码范围为 高字节81-FE(126个),低字节40-FE(191个),总共有24066(126*191)种状态,共收入218886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值