计算机首先是西方人发明和使用的,他们理所当然地解决了拼音文字在计算机上的处理问题。汉字是世界上惟一正在使用的表意文字,如何在计算机上处理好汉字是对这一古老文化的挑战。计算机汉字处理技术,对推广我国计算机应用及加强国际交流有着十分重要的现实意义。
在计算机上处理汉字要比处理西文字符复杂得多,处理汉字首先要确定汉字集合的大小,要解决汉字的输入、传输、存储、输出等一系列问题。在处理过程中每一个环节需要各自不同的编码,因此产生了汉字编码系统和汉字处理技术。
一、汉字字符集
汉字字符集确定了计算机处理汉字的数量,目前,常用的汉字字符集有如下几种。
1、GB 2312-1980汉字编码
GB是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,标准号为GB 2312-80。字符集收录了6763个汉字和682个非汉字图形字符。
2、GBK编码(Chinese Internal Code Specification)
是又一个汉字编码标准(GB即“国标”,K是“扩展”的汉语拼音第一个字母),全称《汉字内码扩展规范》。它共收录了21003个汉字和883个符号,并提供1894个造字码位,简、繁体字融于一库。
3、UCS编码(Universal Multiple-Octet Coded Character Set)
是国际标准化组织ISO公布的一个编码标准,即Universal Multiple-Octet Coded Character Set(简称UCS ),可译为“通用多8位编码字符集”。在该字符集中,总共收录了20902个汉字。
4、BIG-5码
BIG-5码是通行于中国台湾、香港地区的一个繁体字编码方案,俗称“大五码”。它广泛地应用于计算机业和因特网(Internet)中。它是一个双字节编码方案,收录了13461个符号和汉字。其中包括408个符号,13053个汉字。汉字分常用字5401个和次常用字7652个,各部分中的汉字按笔画或部首排列。
二、汉字编码系统
在计算机上处理汉字要经过输入、存储、输出等过程,汉字在处理过程节中要用到不同的编码形式。汉字编码中涉及的编码如下。
1、区位码
人们将GB 2132编码方案所确定的7445个字符放置在一个94行×94列的表格中。表格的每一行称为一个汉字的“区”,用区号表示。每一列称为一个汉字的“位”,用位号表示。
人们把这种表格叫“区位码表”。显然,在区位码表中区号范围是1~94,位号范围也是1~94。这样,一个汉字在区位码表中的位置可用它所在的区号与位号来确定。一个汉字的区号与位号的组合就是该汉字的“区位码”。
2、机内码
汉字在计算机内部进行存储和处理时,要表示为机内码,即一个汉字输入计算机后首先要转换为机内码,然后才能在机器内流动、处理。汉字机内码也是一种二进制编码。
3、输入码
为将汉字输入到计算机内部,一般的方法是将键盘上的字符或数字组合起来,采用“多键一字”输入方法。这种多键组合编码就是汉字键盘输入编码,简称输入码。
4、字形码
汉字字形大多是以数字化方式产生的。字形码就是指确定一个汉字字形点阵的代码,也叫字模或汉字输出码。
5、汉字地址码
在汉字系统中,字形码存放在外存储器里,每一个字模都有自己的存放地址,以便计算机提取字模之用。确定字形码地址的二进制编码就是汉字地址码。
6、内码和外码
计算机在处理汉字的过程中涉及多种编码形式,实际上汉字的编码形式可分为两大类,即汉字的内码和外码。
汉字的内码为计算机系统内处理和存储的汉字形式,它类似于西文的ASCII码,是以进制编码的形式存储。上面所说的机内码、字形码、汉字地址码都属于内码。
汉字的外码是指人向计算机输入汉字,或计算机与其他设备进行汉字信息交换时用的编码形式。常用的外码有汉字输入码、传输码、显示码和打印码等。