汉字的计算机表示

最新推荐文章于 2022-04-29 11:06:40 发布

美梦收藏家(♡˙︶˙♡)

最新推荐文章于 2022-04-29 11:06:40 发布

阅读量1.7k

点赞数 1

文章标签： windows

本文链接：https://blog.csdn.net/m0_57876039/article/details/120771593

版权

1、请回溯汉字当初为什么无法在计算机内表示
我们都知道最早的计算机是通过ASCII来编码的，一共用七个二进制位表示128个字符。在这种情况下英文就有了优势。因为英文是通过26个字母排列组合成单词的语言,所以真正需要编码的英文字母,加上大小写也只有52个。而计算机表达汉字有很多困难，主要有数量庞大，字形复杂等等的障碍。汉字总数(繁体字加上简体字)一共就有6万多个。而在计算机中起码需要2的16次方(也就是至少两个字节)才能表示全部的汉字。这就使得最开始汉字是无法在计算机内表示的。

2、请梳理支持汉字的字符编码方式
为了扩充ASCII编码，以用于显示本国的语言，不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码，又称为"MBCS"。在简体中文系统下，ANSI 编码代表 GB2312 编码，所以在中文 windows下要转码成gb2312,gbk只需要把文本保存为ANSI 编码即可。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。一个很大的缺点是，同一个编码值，在不同的编码体系里代表着不同的字。这样就容易造成混乱，这就导致了unicode码的诞生。
其中每个语言下的ANSI编码，都有一套一对一的编码转换器，Unicode变成所有编码转换的中间介质。所有的编码都有一个转换器可以转换到Unicode，而Unicode也可以转换到其他所有的编码。

GB2312编码方式：
GB2312 也是ANSI编码里的一种，对ANSI编码最初始的ASCII编码进行扩充，为了满足国内在计算机中使用汉字的需要，中国国家标准总局发布了一系列的汉字字符集国家标准编码，统称为GB码，或国标码。其中最有影响的是于1980年发布的《信息交换用汉字编码字符集基本集》，标准号为GB 2312-1980,因其使用非常普遍，也常被通称为国标码。GB2312编码通行于我国内地；新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB2312。
GB 2312是一个简体中文字符集，由6763个常用汉字和682个全角的非汉字字符组成。其中汉字根据使用的频率分为两级。一级汉字3755个，二级汉字3008个。由于字符数量比较大，GB2312采用了二维矩阵编码法对所有字符进行编码。首先构造一个94行94列的方阵，对每一行称为一个“区”，每一列称为一个“位”，然后将所有字符依照下表的规律填写到方阵中。这样所有的字符在方阵中都有一个唯一的位置，这个位置可以用区号、位号合成表示，称为字符的区位码。如第一个汉字“啊”出现在第16区的第1位上，其区位码为1601。因为区位码同字符的位置是完全对应的，因此区位码同字符之间也是一一对应的。这样所有的字符都可通过其区位码转换为数字编码信息。
GB2312字符在计算机中存储是以其区位码为基础的，其中汉字的区码和位码分别占一个存储单元，每个汉字占两个存储单元。由于区码和位码的取值范围都是在1－94之间，这样的范围同西文的存储表示冲突。为避免同西文的存储发生冲突，GB2312字符在进行存储时，通过将原来的每个字节第8bit设置为1同西文加以区别，如果第8bit为0，则表示西文字符，否则表示GB2312中的字符。GB2312编码用两个字节(8位2进制)表示一个汉字，所以理论上最多可以表示256×256=65536个汉字。

GBK编码方式：
GBK即汉字内码扩展规范，GBK编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。GBK是对GB2312-80的扩展，也就是CP936字码表的扩展。
GB 2312的出现，基本满足了汉字的计算机处理需要，但对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来GBK及GB 18030汉字字符集的出现。
GBK采用双字节表示，总体编码范围为8140-FEFE，首字节在81-FE 之间，尾字节在40-FE 之间，剔除 xx7F一条线。总计23940 个码位，共收入21886个汉字和图形符号，其中汉字（包括部首和构件）21003 个，图形符号883 个。
编码方式：字符有一字节和双字节编码，00–7F范围内是一位，和ASCII保持一致，此范围内严格上说有96个字符和32个控制符号。之后的双字节中，前一字节是双字节的第一位。总体上说第一字节的范围是81–FE（也就是不含80和FF），第二字节的一部分领域在40–7E，其他领域在80–FE。

Big5编码方式：
在台湾、香港与澳门地区，使用的是繁体中文字符集。而1980年发布的GB2312面向简体中文字符集，并不支持繁体汉字。在这些使用繁体中文字符集的地区，一度出现过很多不同厂商提出的字符集编码，这些编码彼此互不兼容，造成了信息交流的困难。为统一繁体字符集编码，1984年，台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案，因其来源被称为五大码，英文写作Big5，后来按英文翻译回汉字后，普遍被称为大五码。
大五码是一种繁体中文汉字字符集，其中繁体汉字13053个，808个标点符号、希腊字母及特殊符号。大五码的编码码表直接针对存储而设计，每个字符统一使用两个字节存储表示。第1字节范围81H－FEH，避开了同ASCII码的冲突，第2字节范围是40H－7EH和A1H－FEH。因为Big5的字符编码范围同GB2312字符的存储码范围存在冲突，所以在同一正文不能对两种字符集的字符同时支持。
Big5字符主要部分集中在三个段内：标点符号、希腊字母及特殊符号；常用汉字；非常用汉字。其余部分保留给其他厂商支持。

Unicode编码方式：
如上ANSI编码条例中所述，世界上存在着多种编码方式，在ANSI编码下，同一个编码值，在不同的编码体系里代表着不同的字。要想打开一个文本文件，不但要知道它的编码方式，还要安装有对应编码表，否则就可能无法读取或出现乱码。对同一个二进制编码值进行显示，采用了不同的编码，导致乱码。这个问题促使了unicode码的诞生。
如果有一种编码，将世界上所有的符号都纳入其中，无论是英文、日文、还是中文等，大家都使用这个编码表，就不会出现编码不匹配现象。每个符号对应一个唯一的编码，乱码问题就不存在了，这就是Unicode编码。
Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，“汉”这个字的Unicode编码是U+6C49。
Unicode固然统一了编码方式，但是它的效率不高，比如UCS-4(Unicode的标准之一)规定用4个字节存储一个符号，那么每个英文字母前都必然有三个字节是0，这对存储和传输来说都很耗资源。

UTF-8编码方式：
为了提高Unicode的编码效率，于是就出现了UTF-8编码。UTF-8可以根据不同的符号自动选择编码的长短。比如英文字母可以只用1个字节就够了。
UTF-8的编码是这样得出来的，以”汉”这个字为例：“汉”字的Unicode编码是U+00006C49，然后把U+00006C49通过UTF-8编码器进行编码，最后输出的UTF-8编码是E6B189。

Base64编码方式：
有的电子邮件系统不支持非英文字母传输，这是历史原因造成的。因为一个英文字母使用ASCII编码来存储，占存储器的1个字节(8位)，实际上只用了7位2进制来存储，第一位并没有使用，设置为0，所以，这样的系统认为凡是第一位是1的字节都是错误的。而有的编码方案不但使用多个字节编码一个字符，并且第一位经常是1，于是邮件系统就把1换成0，这样收到邮件的人就会发现邮件乱码。
为了能让邮件系统正常的收发信件，就需要把由其他编码存储的符号转换成ASCII码来传输。比如，在一端发送GB2312编码－>根据Base64规则－>转换成ASCII码，接收端收到ASCII码－>根据Base64规则－>还原到GB2312编码。

3、2001年，中国工程院颁发了“二十世纪我国重大工程技术成就”评选结果，“汉字信息处理与印刷革命”当选第二项，比第一项“两弹一星”仅差一票。请谈谈你对这件事的看法。
现在我们通过电脑编辑文字，能够阅读纸质教材，都要归功于一个人，那就是王选，以及他带领的“汉字信息处理与印刷革命”。当年因为汉字信息量庞大，而当时的计算机十分简陋，根本无法存储。很多学者认为，汉字永远无法进入信息时代，甚至有人认为汉字是落后的文字，应该被淘汰。
但是就是这场“汉字信息处理与印刷革命”，让中国的印刷术告别了铅与火，进入了光与电的时代；正是这场革命，在中国印刷史上具有划时代的意义。正是这场革命，使汉字存入电脑成为现实，让我们阅读中文报纸书籍、用手机浏览中文文字成为现实，让汉字在信息时代传承下去成为现实。
汉字不仅对中华民族的形成和团结有很大的积极作用，而且还在无形中促成了中国文化兼容并蓄，文化认同大于血缘认同的特点。在信息时代如果计算机无法识别汉字，这对于整个国家和民族都是一种莫大的悲哀。毕昇发明的活字印刷术带来了中国印刷术的第一次革命，我们可以大规模的印刷书籍，传播文化，并通过这种方式留下来无数的文化典籍。但是随着时代的进步我们发现活字印刷术已近不能满足的需求，印刷一本书的时间太长。
在信息时代到来时，我们更需要一种新的印刷方式，“汉字信息处理与印刷革命”的到来改变了这种困境，王选带领着团队攻克了汉字信息的数字化存储和输出等世界性难关，使我国延续上百年的铅字印刷行业直接跨越到激光照排，走完了西方四十年完成的技术改造道路，被誉为毕昇发明活字印刷术后中国印刷术的第二次革命，为信息时代汉字和中华文化的传承与发展创造了条件。我相信在未来，随着更多学者的攻坚克难，计算机能够处理越来越多与汉字相关的问题，明天计算机的自然语言处理能力，定会使我们所有人大吃一惊！

参考文献：
[1]田胜立. 现代编辑出版业的历史性跨越:汉字信息处理与排版印刷技术革命[J]. 中国编辑, 2008(04):40-42.
[2]童应学，吴燕．计算机应用基础教程：华中师范大学出版社，2010年8月：11
[3]倪光南. 自主创新的光辉范例——王选院士领导的数字印刷革命[J]. 中国经济和信息化, 2006(6):9-10.
[4]丛中笑. "当代毕昇"与我国第二次印刷技术革命——王选的创新思想与实践对建设创新型国家的示范意义(一)[J]. 人民论坛, 2018, 000(036):118-123.
[5]张劲夫. 我国印刷技术的第二次革命[J]. 中国印刷, 2002.

美梦收藏家(♡˙︶˙♡)

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
汉字的计算机表示

**汉字的计算机表示**1、请回溯汉字当初为什么无法在计算机内表示我们都知道最早的计算机是通过ASCII来编码的，一共用七个二进制位表示128个字符。在这种情况下英文就有了优势。因为英文是通过26个字母排列组合成单词的语言,所以真正需要编码的英文字母,加上大小写也只有52个。而计算机表达汉字有很多困难，主要有数量庞大，字形复杂等等的障碍。汉字总数(繁体字加上简体字)一共就有6万多个。而在计算机中起码需要2的16次方(也就是至少两个字节)才能表示全部的汉字。这就使得最开始汉字是无法在计算机内...
复制链接

扫一扫