计算机系统汉字编码分为,计算机中的汉字编码

计算机首先是西方人发明和使用的,他们理所当然地解决了拼音文字在计算机上的处理问题。汉字是世界上惟一正在使用的表意文字,如何在计算机上处理好汉字是对这一古老文化的挑战。计算机汉字处理技术,对推广我国计算机应用及加强国际交流有着十分重要的现实意义。

在计算机上处理汉字要比处理西文字符复杂得多,处理汉字首先要确定汉字集合的大小,要解决汉字的输入、传输、存储、输出等一系列问题。在处理过程中每一个环节需要各自不同的编码,因此产生了汉字编码系统和汉字处理技术。

一、汉字字符集

汉字字符集确定了计算机处理汉字的数量,目前,常用的汉字字符集有如下几种。

1、GB 2312-1980汉字编码

GB是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,标准号为GB 2312-80。字符集收录了6763个汉字和682个非汉字图形字符。

2、GBK编码(Chinese Internal Code Specification)

是又一个汉字编码标准(GB即“国标”,K是“扩展”的汉语拼音第一个字母),全称《汉字内码扩展规范》。它共收录了21003个汉字和883个符号,并提供1894个造字码位,简、繁体字融于一库。

3、UCS编码(Universal Multiple-Octet Coded Character Set)

是国际标准化组织ISO公布的一个编码标准,即Universal Multiple-Octet Coded Character Set(简称UCS ),可译为“通用多8位编码字符集”。在该字符集中,总共收录了20902个汉字。

4、BIG-5码

BIG-5码是通行于中国台湾、香港地区的一个繁体字编码方案,俗称“大五码”。它广泛地应用于计算机业和因特网(Internet)中。它是一个双字节编码方案,收录了13461个符号和汉字。其中包括408个符号,13053个汉字。汉字分常用字5401个和次常用字7652个,各部分中的汉字按笔画或部首排列。

二、汉字编码系统

在计算机上处理汉字要经过输入、存储、输出等过程,汉字在处理过程节中要用到不同的编码形式。汉字编码中涉及的编码如下。

1、区位码

人们将GB 2132编码方案所确定的7445个字符放置在一个94行×94列的表格中。表格的每一行称为一个汉字的“区”,用区号表示。每一列称为一个汉字的“位”,用位号表示。

人们把这种表格叫“区位码表”。显然,在区位码表中区号范围是1~94,位号范围也是1~94。这样,一个汉字在区位码表中的位置可用它所在的区号与位号来确定。一个汉字的区号与位号的组合就是该汉字的“区位码”。

2、机内码

汉字在计算机内部进行存储和处理时,要表示为机内码,即一个汉字输入计算机后首先要转换为机内码,然后才能在机器内流动、处理。汉字机内码也是一种二进制编码。

3、输入码

为将汉字输入到计算机内部,一般的方法是将键盘上的字符或数字组合起来,采用“多键一字”输入方法。这种多键组合编码就是汉字键盘输入编码,简称输入码。

4、字形码

汉字字形大多是以数字化方式产生的。字形码就是指确定一个汉字字形点阵的代码,也叫字模或汉字输出码。

5、汉字地址码

在汉字系统中,字形码存放在外存储器里,每一个字模都有自己的存放地址,以便计算机提取字模之用。确定字形码地址的二进制编码就是汉字地址码。

6、内码和外码

计算机在处理汉字的过程中涉及多种编码形式,实际上汉字的编码形式可分为两大类,即汉字的内码和外码。

汉字的内码为计算机系统内处理和存储的汉字形式,它类似于西文的ASCII码,是以进制编码的形式存储。上面所说的机内码、字形码、汉字地址码都属于内码。

汉字的外码是指人向计算机输入汉字,或计算机与其他设备进行汉字信息交换时用的编码形式。常用的外码有汉字输入码、传输码、显示码和打印码等。

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值