使用计算机进行信息处理的前提,计算机处理汉字信息的前提条件是对每个汉字进行编码.docx...

计算机处理汉字信息的前提条件是对每个汉字进行编码

计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字编码。汉字信息在系统内传送的过程就是汉字编码转换的过程。汉字交换码:汉字信息处理系统之间或通信系统之间传输信息时,对每一个汉字所规定的统一编码,我国已指定汉字交换码的国家标准“信息交换用汉字编码字符集——基本集”,代号为GB 2312—80,又称为“国标码”。国标码:所有汉字编码都应该遵循这一标准,汉字机内码的编码、汉字字库的设计、汉字输入码的转换、输出设备的汉字地址码等,都以此标准为基础。GB 2312—80就是国标码。该码规定:一个汉字用两个字节表示,每个字节只有7位,与ASCII码相似。区位码:将GB 2312—80的全部字符集组成一个94×94的方阵,每一行称为一个“区”,编号为0l~94;每一列称为一个“位”,编号为0l~94,这样得到GB 2312—80的区位图,用区位图的位置来表示的汉字编码,称为区位码。机内码:为了避免ASCII码和国标码同时使用时产生二义性问题,大部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标码具有极简单的对应关系。汉字机内码、国标码和区位码三者之间的关系为:区位码(十进制)的两个字节分别转换为十六进制后加20H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加A0H得到对应的机内码。?GB2312编码包括符号、数字、字母、日文、制表符等,当然最主要的部分还是中文,它采用16位编码方式,简体中文的编码范围从B0A1一直到F7FE,完整编码表可以参考http://ash.jp/code/cn/gb2312tbl.htm。汉字编码简明对照表中文转换为完整拼音算法原理分析 ?汉字编码原理1.国家标准汉字代码体系 汉字字数繁多,属性丰富,因而汉字代码体系也较复杂,包括: (1)汉字机内码。它们是汉字在计算机汉字系统内部的表示方法,是计算机汉字系统的基础代码。 (2)汉字交换码。它们是国标汉字(如机内码)进行信息交换的代码标准。 (3)汉字输入码。它们是在计算机标准键盘上输入汉字用到的各种代码体系。 (4)汉字点阵码。它们是在计算机屏幕上显示和在打印机上打印输出汉字的代码体系。 (5)汉字字形控制码。为了打印各种风格的字体和字形所制定的代码。 这些代码系统有的必须有统一的国家标准,有的则不要求统一。近年来我国已经制定系列汉字信息处理方面的国家标准,今后将继续完善,并与国际上求得统一。2. 国家标准汉字交换码 我国制定了“中华人民共和国国家标准信息交换汉字编码”,标准代号为GB2312—80,这种编码又称为国标码。在国标码的字符集中共收录了一级汉字3755个,二级汉字3008个,图形符号682个,三项字符总计7445个。 在国标GD2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。区位码的前两位是它的区号,后两位是它的位号。用区位码就可以唯一地确定一个汉字或符号,反过来说,任何一个汉字或符号也都对应着一个唯一的区位码。汉字“母”字的区位码是3624,表明它在方阵的36区24位,问号“?”的区位码为0331,则它在03区3l位。 所有的汉字和符号所在的区分为以下四个组: (1)01区到15区。图形符号区,其中01区到09区为标准符号区,10区到15区为自定义符号区。 01区到09区的具体内容如下; 1)01区。一般符号202个,如间隔符、标点、运算符、单位符号及制表符; 2)02区。序号60个,如1.~20.、(1)~(20)、①~⑩及(一)~(十); 3)03区。数字22个,如0—9及X一XII,英文字母52个,其中大写A—Z、小写a—z各26个; 4)04区。日文平假名83个; 5)05区。日文片假名86个; 6)06区。希腊字母48个; 7)07区。俄文字母66个; 8)08区。汉语拼音符号a—z26个; 9)09区。汉语拼音字母37个。 (2)16区到55区。一级常用汉字区,包括了3755个一统汉字。这40个区中的汉字是按汉语拼音排序的,同音字按笔划顺序排序。其中55区的90一94位未定义汉字。 (3)56区到87区。二级汉字区,包括了3008个二级汉字,按部首排序。 (4)88区到94区。自定义汉字区。 第10区到第15区的自定义符号区和第88区到第94区的自定义汉字区可由用户自行 定义国标码中未定义的符号和汉字。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值