汉字的计算机表示

1、请回溯汉字当初为什么无法在计算机内表示
我们都知道最早的计算机是通过ASCII来编码的,一共用七个二进制位表示128个字符。在这种情况下英文就有了优势。因为英文是通过26个字母排列组合成单词的语言,所以真正需要编码的英文字母,加上大小写也只有52个。而计算机表达汉字有很多困难,主要有数量庞大,字形复杂等等的障碍。汉字总数(繁体字加上简体字)一共就有6万多个。而在计算机中起码需要2的16次方(也就是至少两个字节)才能表示全部的汉字。这就使得最开始汉字是无法在计算机内表示的。

2、请梳理支持汉字的字符编码方式
为了扩充ASCII编码,以用于显示本国的语言,不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码,又称为"MBCS"。在简体中文系统下,ANSI 编码代表 GB2312 编码,所以在中文 windows下要转码成gb2312,gbk只需要把文本保存为ANSI 编码即可。不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。一个很大的缺点是,同一个编码值,在不同的编码体系里代表着不同的字。这样就容易造成混乱,这就导致了unicode码的诞生。
其中每个语言下的ANSI编码,都有一套一对一的编码转换器,Unicode变成所有编码转换的中间介质。所有的编码都有一个转换器可以转换到Unicode,而Unicode也可以转换到其他所有的编码。

GB2312编码方式:
GB2312 也是ANSI编码里的一种,对ANSI编码最初始的ASCII编码进行扩充,为了满足国内在计算机中使用汉字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码,或国标码。其中最有影响的是于1980年发布的《信息交换用汉字编码字符集基本集》,标准号为GB 2312-1980,因其使用非常普遍,也常被通称为国标码。GB2312编码通行于我国内地;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB2312。
GB 2312是一个简体中文字符集,由6763个常用汉字和682个全角的非汉字字符组成。其中汉字根据使用的频率分为两级。一级汉字3755个,二级汉字3008个。由于字符数量比较大,GB2312采用了二维矩阵编码法对所有字符进行编码。首先构造一个94行94列的方阵,对每一行称为一个“区”,每一列称为一个“位”,然后将所有字符依照下表的规律填写到方阵中。这样所有的字符在方阵中都有一个唯一的位置,这个位置可以用区号、位号合成表示,称为字符的区位码。如第一个汉字“啊”出现在第16区的第1位上,其区位码为1601。因为区位码同字符的位置是完全对应的,因此区位码同字符之间也是一一对应的。这样所有的字符都可通过其区位码转换为数字编码信息。
GB2312字符在计算机中存储是以其区位码为基础的,其中汉字的区码和位码分别占一个存储单元,每个汉字占两个存储单元。由于区码和位码的取值范围都是在1-94之间,这样的范围同西文的存储表示冲突。为避免同西文的存储发生冲突,GB2312字符在进行存储时,通过将原来的每个字节第8bit设置为1同西文加以区别,如果第8bit为0,则表示西文字符,否则表示GB2312中的字符。GB2312编码用两个字节(8位2进制)表示一个汉字,所以理论上最多可以表示256×256=65536个汉字。

GBK编码方式:
GBK即汉字内码扩展规范,GBK编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。GBK是对GB2312-80的扩展,也就是CP936字码表的扩展。
GB 2312的出现,基本满足了汉字的计算机处理需要,但对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。
GBK采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE 之间,尾字节在40-FE 之间,剔除 xx7F一条线。总计23940 个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号883 个。
编码方式:字符有一字节和双字节编码,00–7F范围内是一位,和ASCII保持一致,此范围内严格上说有96个字符和32个控制符号。之后的双字节中,前一字节是双字节的第一位。总体上说第一字节的范围是81–FE(也就是不含80和FF),第二字节的一部分领域在40–7E,其他领域在80–FE。

Big5编码方式:
在台湾、香港与澳门地区,使用的是繁体中文字符集。而1980年发布的GB2312面向简体中文字符集,并不支持繁体汉字。在这些使用繁体中文字符集的地区,一度出现过很多不同厂商提出的字符集编码,这些编码彼此互不兼容,造成了信息交流的困难。为统一繁体字符集编码,1984年,台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案,因其来源被称为五大码,英文写作Big5,后来按英文翻译回汉字后,普遍被称为大五码。
大五码是一种繁体中文汉字字符集,其中繁体汉字13053个,808个标点符号、希腊字母及特殊符号。大五码的编码码表直接针对存储而设计,每个字符统一使用两个字节存储表示。第1字节范围81H-FEH,避开了同ASCII码的冲突,第2字节范围是40H-7EH和A1H-FEH。因为Big5的字符编码范围同GB2312字符的存储码范围存在冲突,所以在同一正文不能对两种字符集的字符同时支持。
Big5字符主要部分集中在三个段内:标点符号、希腊字母及特殊符号;常用汉字;非常用汉字。其余部分保留给其他厂商支持。

Unicode编码方式:
如上ANSI编码条例中所述,世界上存在着多种编码方式,在ANSI编码下,同一个编码值,在不同的编码体系里代表着不同的字。要想打开一个文本文件,不但要知道它的编码方式,还要安装有对应编码表,否则就可能无法读取或出现乱码。对同一个二进制编码值进行显示,采用了不同的编码,导致乱码。这个问题促使了unicode码的诞生。
如果有一种编码,将世界上所有的符号都纳入其中,无论是英文、日文、还是中文等,大家都使用这个编码表,就不会出现编码不匹配现象。每个符号对应一个唯一的编码,乱码问题就不存在了,这就是Unicode编码。
Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,“汉”这个字的Unicode编码是U+6C49。
Unicode固然统一了编码方式,但是它的效率不高,比如UCS-4(Unicode的标准之一)规定用4个字节存储一个符号,那么每个英文字母前都必然有三个字节是0,这对存储和传输来说都很耗资源。

UTF-8编码方式:
为了提高Unicode的编码效率,于是就出现了UTF-8编码。UTF-8可以根据不同的符号自动选择编码的长短。比如英文字母可以只用1个字节就够了。
UTF-8的编码是这样得出来的,以”汉”这个字为例:“汉”字的Unicode编码是U+00006C49,然后把U+00006C49通过UTF-8编码器进行编码,最后输出的UTF-8编码是E6B189。

Base64编码方式:
有的电子邮件系统不支持非英文字母传输,这是历史原因造成的。因为一个英文字母使用ASCII编码来存储,占存储器的1个字节(8位),实际上只用了7位2进制来存储,第一位并没有使用,设置为0,所以,这样的系统认为凡是第一位是1的字节都是错误的。而有的编码方案不但使用多个字节编码一个字符,并且第一位经常是1,于是邮件系统就把1换成0,这样收到邮件的人就会发现邮件乱码。
为了能让邮件系统正常的收发信件,就需要把由其他编码存储的符号转换成ASCII码来传输。比如,在一端发送GB2312编码->根据Base64规则->转换成ASCII码,接收端收到ASCII码->根据Base64规则->还原到GB2312编码。

3、2001年,中国工程院颁发了“二十世纪我国重大工程技术成就”评选结果,“汉字信息处理与印刷革命”当选第二项,比第一项“两弹一星”仅差一票。请谈谈你对这件事的看法。
现在我们通过电脑编辑文字,能够阅读纸质教材,都要归功于一个人,那就是王选,以及他带领的“汉字信息处理与印刷革命”。当年因为汉字信息量庞大,而当时的计算机十分简陋,根本无法存储。很多学者认为,汉字永远无法进入信息时代,甚至有人认为汉字是落后的文字,应该被淘汰。
但是就是这场“汉字信息处理与印刷革命”,让中国的印刷术告别了铅与火,进入了光与电的时代;正是这场革命,在中国印刷史上具有划时代的意义。正是这场革命,使汉字存入电脑成为现实,让我们阅读中文报纸书籍、用手机浏览中文文字成为现实,让汉字在信息时代传承下去成为现实。
汉字不仅对中华民族的形成和团结有很大的积极作用,而且还在无形中促成了中国文化兼容并蓄,文化认同大于血缘认同的特点。在信息时代如果计算机无法识别汉字,这对于整个国家和民族都是一种莫大的悲哀。毕昇发明的活字印刷术带来了中国印刷术的第一次革命,我们可以大规模的印刷书籍,传播文化,并通过这种方式留下来无数的文化典籍。但是随着时代的进步我们发现活字印刷术已近不能满足的需求,印刷一本书的时间太长。
在信息时代到来时,我们更需要一种新的印刷方式,“汉字信息处理与印刷革命”的到来改变了这种困境,王选带领着团队攻克了汉字信息的数字化存储和输出等世界性难关,使我国延续上百年的铅字印刷行业直接跨越到激光照排,走完了西方四十年完成的技术改造道路,被誉为毕昇发明活字印刷术后中国印刷术的第二次革命,为信息时代汉字和中华文化的传承与发展创造了条件。我相信在未来,随着更多学者的攻坚克难,计算机能够处理越来越多与汉字相关的问题,明天计算机的自然语言处理能力,定会使我们所有人大吃一惊!

参考文献:
[1]田胜立. 现代编辑出版业的历史性跨越:汉字信息处理与排版印刷技术革命[J]. 中国编辑, 2008(04):40-42.
[2]童应学,吴燕.计算机应用基础教程:华中师范大学出版社,2010年8月:11
[3]倪光南. 自主创新的光辉范例——王选院士领导的数字印刷革命[J]. 中国经济和信息化, 2006(6):9-10.
[4]丛中笑. "当代毕昇"与我国第二次印刷技术革命——王选的创新思想与实践对建设创新型国家的示范意义(一)[J]. 人民论坛, 2018, 000(036):118-123.
[5]张劲夫. 我国印刷技术的第二次革命[J]. 中国印刷, 2002.

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值