信息处理交换用汉字编码字符集 GB2312-80




学习字库制作的时候需要用到这个,所以转过来学习学习!

中国于1981年发布了《信息处理交换用汉字编码字符集 基本集》GB2312-80

GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两

个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。01-09区为符

号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区

。GB2312将收录的汉字分成两级:第一级是常用汉字计 3755个,置于16-55区,

按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87

区,按部首/笔画顺序排列。故而 GB2312最多能表示6763个汉字

汉字系统对每个汉字规定了输入计算机的代码,即汉字的外部码,键盘输入汉字

是输入汉字的外部码。计算机为了识别汉字,要把汉字的外部码转换成汉字的内

部码,以便进行处理和存储。为了将汉字以点阵的形式输出,还要将汉字的内部

码转换为汉字的字形码,确定一个汉字的点阵。并且,在计算机和其它系统或设

备需要信息、数据交流时还必须采用交换码。 

(1) 外部码 外部码是计算机输入

汉字的代码,代表某一个汉字的一组键盘符号。外部码也叫汉字输入码。为了建

立友好的用户界面,输入码的规则必须简单清晰、直观易学、容易记亿、操作方

便、码位短、输入速度快、重码少,既符合初学者的学习,又能满足专业输入者

的要求,便于盲打。汉字的输入方法不同,同一个汉字的外码可能不一样。人们

根据汉字的属性(汉字字量、字形、字音、使用频度)提出了数百种汉字外码的编

码方案。由于用户不同,用途不同,各自喜爱的编码方式也不尽相同,故对用什

么编码方案不能强求统一。例如拼音码和五笔字型比较受一般用户的欢迎。

 (2)

内部码 汉字内部码亦称为汉字内码或汉字机内码。计算机处理汉字,实际上是处

理汉字的代码。当计算机输入外部码时,通常要转成内部码,才能进行存储、运

算、传送。一般用二个字节表示一个汉字的内码。内部码经常是用汉字在字库中

的物理位置表示,如汉字在字库中的序号或汉字在字库中的存储位置表示。注意

一般情况下,汉字的内部码不能与西文字符编码(ACSII码、EBCDIC码等)发生冲突

,并容易区分汉字与西文字符;尽可能占用少的字节表示尽可能多的汉字;与标

准交换码兼容(与交换码有尽可能简单明确的对应关系;运算时不产生二义性和不

确定性)。 除了二字节汉字内部码外,还有三字节内部码、四字节内部码、带引

导码的汉字内部码、带符号的汉字内部码、带括号的汉字内部码等。

 (3) 交换码

当计算机之间或与终端之间进行信息交换时,要求它们之间传送的汉字代码信息

完全一致,国家规定了信息交换用的标准汉字交换码"GB312-80信息交换用汉字编

码字符集(基本集)",即国标码。国标码共收集了7445个图形字符,其中汉字6763

个,一般符号、数字、拉丁字母、希腊字母、汉语拼音等709个。

 (4) 汉字输出

码 又称汉字字形码或汉字发生器的编码。为输出汉字,对汉字字形经过点阵的数

字化后的一串二进制数称为汉字输出码。


汉字内部码:汉字在计算机内的编码(简称内码) 
ASCII码用1个字节(最左边位为0)表示1个英文字符 
汉字用两个字节(共16位二进制数编码)表示, 两字节首位都是“1” ,这种汉

字编码最多可以表示 27×27=128×128=16384个汉字


字型码是一些汉字输入软件所定义的汉字编码规则,是把汉字抽象为一些字根(

字型)组合出来的,根据书写规则编码。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值