中文信息处理

最新推荐文章于 2022-03-21 20:06:31 发布

mentat

最新推荐文章于 2022-03-21 20:06:31 发布

阅读量3.5k

点赞数

分类专栏：编程开发文章标签：语言图像处理图形终端工作网格

本文链接：https://blog.csdn.net/mentat/article/details/27244

版权

编程开发专栏收录该内容

60 篇文章 1 订阅

订阅专栏

用电脑加工中文

人类生活在信息的海洋之中，分分秒秒离不开信息。语言文字是人类社会特有的信息。信息处理方法的每一次重大革新，都促使人类社会进入更文明的阶段。在古代，烽火台的狼烟传递的是战争信息；纸和活字印刷术的发明，是信息表示和储存方法的革命；电报、电话、电视的发明，是信息加工和传输方法的革命；打字机、电传机、排铸机的发明，使语言文字的信息处理走上了机械化阶段；电子计算机作为强有力的信息处理工具的出现，使人类跨进了信息化的社会。

在我国，中文信息处理已经不是什么新鲜事物了。“中文”广义是指中国通用的语言文字，包括汉语汉字及其他少数民族文字；狭义地说，是指汉字。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取，并有一定交际功能的东西；所谓“处理”，是指用电脑对信息进行各种加工，主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。

中文信息处理研究，一般都形成各种各样的系统，如汉字信息处理系统、编辑排版系统、情报检索系统、程序教学系统、机器翻译系统、各类数据库和专家系统。此外，还有语音识别系统、汉语合成系统、各种通讯系统、人机对话系统等等。

以上系统有个共同的特点，即离不开电脑。这里讲的中文信息处理，不是一般人理解的电脑打字，而是通过电脑来处理和加工中文。中国是个具有五千年文明的伟大古国，三千年前就出现了甲骨文，在世界上处于先进行列。在新技术面前，中国的汉字不能直接进入电脑，因而受到了变革的冲击。1880年，丹麦人编制了汉字电报码本，用于电报传输汉字；1956年，我国科学工作者钱文浩提出了“码化理论”，他认为把汉字编为４位数字的电码，又把数字换成点和划的系统（汉字），这两个过程都是码化过程，汉字被码化后就可以作为信息来传输和处理了。从那时到现在，研究汉字信息处理的有识之士，克服种种困难，已经创造出近1000个汉字输入编码方案了，其中较优秀的有二三十个。

汉字不是为在电脑上使用而创制，电脑也不是为处理汉字而发明。对汉字逐个定出编码只是权宜之计，不是最终目的。研究中文信息处理的最终目的，打个比喻，就是要让电脑长成中国式的脑，长出中国式的耳目嘴手，成为具有高智能的中国机器人，实现情报工作、印刷排版、办公室的自动化等等，为促进现代化建设而作出贡献。

汉字如何进入计算机

被称为新技术革命象征的电脑，神通广大，似乎无所不能。但是，电脑只认两个符号，即0和1，0是空号，1是传号，而不是阿拉伯数字中的0和1。电脑采用的是二进位制，而不是十进位制。一般来说，电脑对于语言文字的信息处理，主要是对26个拉丁字母和10个阿拉伯数字以及一些标点符号的表达、识别、传输和复制。如ASCII码中的ABC、abc和123的代码如下：

A: 01000001(41H)　　　　　B: 01000010(42H)　　　　　C: 01000011(43H)

a: 01100001(61H)　　　　　b: 01100010(62H)　　　　　c: 01100011(63H)

1: 00110001(31H)　　　　　2: 00110010(32H)　　　　　3: 00110011(33H)

当我们输入A时，敲击键盘上的A键，当然，电脑不认识A，但可以认识A的代码，即：01000001，并对它进行传输处理后，在输出时，再还原为A就行了。在输入英文时，如输入Book，直接敲击这些字母键就行了，而机内接收到的是B、o、o、k的二进制代码，即：01000010、01101111、01101111、01101011。

汉字进入电脑的情况就不同。汉字的总数约6万个，组成这么多汉字的构成成份也有600多个，这样大的数量在电脑中用二进制代码是无法表达的。解决的方法是先把汉字编成用字母或数字表达的外码。如对“莉”字编码，用拼音方式，编码为LI，击L和I键后，发LI音的一串同音字会显示出来，再选择所要的字按序号击键输入就行。这样输速很慢，为了减少重码，加快输速，一般的方法是在LI之后加上分化同音字的定字字母，如将“莉”拆分为“艹”“利”各取其第一字母C、L，“莉”的编码为LICL，基本不会再有重码，可以直接输入了。还有一种方法是加声调代码4（四声）和部首代码U（艹），“莉”的编码为LI4U，这样编码，可读性更强。用字形编码方式，即先将“莉”拆分为字根（部首或更小的汉字构件）：艹、禾、刂，“五笔字型”的代码为ATJ，这样可能重码，要引进末笔代码2，字型代码2，构成识别码J（22），所以“莉”的编码为ATJJ。因此，无论是音码形码，都要将汉字转换成字母（或数字）才能输入电脑。输出时，又将字母转换成汉字。这很像坐火车运客，旅客手拿人民币不能进入车厢，必须将人民币换成车票方能上车。到终点出站，旅客回单位报销，将车票又换成了人民币。

国标GB2312字符集一、二级汉字共6763个，是信息处理用字符集的基本集，目前，大多数机器就装有这么多汉字，这显然是不够的，在输入姓名、古文或日文时，有些字就打不出。扩充的GBK 字符集拥有20902个汉字，特殊的字库需要有6万个汉字，汉字数量大，编码输入的困难也大，因此，汉字编码输入的研究仍然需要继续深入进行。

汉字编码的早期

最早的汉字编码可以追溯到100年前。1880年中国创办中文电报局，丹麦人编定4位数字的电码，用以传输汉字。电报码用４个数字代替一个汉字，按字典所列汉字的顺序排列，与语音、笔画、构件都没有关系，是一种无理编码，只能死记硬背，效率较低。但是一个熟练的报务员，每分钟可传输130 个汉字。现在，仍有一些电脑上保留有电报码汉字输入法。

1926年，日本人发明了“万能式中文打字键盘”，在70×35的字盘上，收入2000多汉字和符号，用按键法输入。以后，东芝公司改为笔触式输入。大键盘的优点是直观性强，缺点是速度慢，设备笨重。还有一种主键——辅键式整字键盘，日本和美国都设计制造过，键盘收字约5000个，排列在168 个主键上，每键收30个汉字，另设30个辅助键，与分配给主键的30个汉字分别对应。熟练后，每小时可输2000字。以上方式都不用编码输入。

四角号码查字法于1928年出现，这种方案的同码字很多，在8877个汉字中，一组码代表二个以上汉字的比例达88％，1959年原苏联科学院研制“汉—俄”翻译机时，将原有的10种笔画增至15种，每个汉字用5位数，前4位表示汉字的四角笔画，末位数区分重码，无重字为0，有重码的字分别定为1、2、3等等。1963年，美国IBM 公司采用林语堂的“上下形检字法”，取汉字的左上角笔形和右下角笔形编码。1970年，江德曜对上述方案加以改进，确定34个“起笔”和22个“末笔”进行编码，重码字选择输入，这就是首尾码，学起来方便，但速度慢。

字形分解式的编码，一般用于中键盘。1961年杜定友发表“字根研究”，归纳出504 个字根，可组成全部通用字，用来编码。胡立人等提出“三角编号法”，取每字三个角的笔形（字根）编码，字根定为300个，合并为99个部首，排在100键的键盘上，每字击三次键便可输入。王安公司采用过此方案。杨联升提出“笔划字母”编码法，把所有的汉字分解成21种笔画，每一种笔画对应于一个拉丁字母，按汉字的书写顺序输入，这种编码是不等长码，但在标准的26个字母键的小键盘上可完成输入。李金铠的笔形编码与王永民的五笔画编码与此相类似。

在60年代至70年代出现的100 多种汉字编码方案中，笔画分解式编码占比例很大，世界各地包括香港、台湾的华人科学家，多数倾向于这类方案，究其原因，许多人由于方言影响掌握普通话较差，还有些字不能正确读音。但是，经过多年的研究和实践，终于得出一个结论：要正确地写出通用汉字的笔画，比正确读出它们的音困难得多。于是，一些研究者转向拼音编码。

汉字编码的中期

在笔画编码方案中，汉字基本笔画的划分种类很多，有4、5、6、8、10以至21、24、33种笔画的。在字根码方案中，不同的字根数有100、200以至400～500个的，而且拆分方法也难掌握。1958年我国推行了《汉语拼音方案》，每个字有规定的读音，这对编码十分有利。

周有光教授著的《电报拼音化》于1965年出版，其汉字拼音电码的构成为：一、拼音部分，与《新华字典》拼音相同；二、标调字母（加在音节后）；阴平F、阳平X、上声V、去声H；三、定字字母：即将汉字部首分成20组，每组用1个字母代替，如：“力立老耒卤里鹿龙”为一组，由L代替，如“站”的拼音电码为ZHANHL（ZHAN—拼音；H—去声；L—“立”的定字字母）。定字字母多数是1个，少数是2个。这是全拼音方式的编码，有很好的可读性，在一万字内没有重码。

有一种全拼编码，只有声母和韵母两部分，而没有声调字母和定字字母，同码字多，需要显示选择输入，又把声母、韵母加以压缩，如现在通用的双拼码的压缩方案为：A-zh、B-ia/ua、C-uan、D-ao、F-an、G-ang、H-iang/uang、I-sh、J-ian、K-iao、L-in、M-ie、N-iu、O-uo、P-ou、Q-er、R-en、S-ai、T-eng、U-ch、V-zh/ü、W-ei、X-uai、Y-ong/iong、Z-un、;-ing。实例如：请Q;、您NL、欣XL、赏IG。这种编码将平均2.97字母，最多6字母的汉字音码全部统一为2字母，即双声母、复合韵母全用1个字母代替。因为汉语拼音的声母和韵母具有理想的数学结构，双拼替代后整齐划一，字母少输速快，受到了广泛的重视，目前装机使用面相当广。国内最早倡导此类双拼方案的是黎锦熙、唐艺等人，扶良文、郭淑珍、李金铠等设计的拼音码都是声韵双拼，曾经一鸣惊人的自然码也采用了类似的双拼方案。

汉语有400 多个音节，按6763个汉字计算，每个音节约有27个同音字；分出声调后有1200多个音节，每个音节约有6 个同音字，双拼方案的关键在于如何确定第三第四字母，以便妥善分化同音字，减少重码。郭淑珍等人较早设计的声韵部形码，将189个部首分为23类，每类对应1字母，同时将部首按意义分为五大类：自然、生物、生理、生活、余类。第三字母按部首定；第四字母按部首意类（五大类）和起笔交叉表确定。交叉表内，起笔分横竖撇点折，横排5行；部首意类竖排5列，表内有25个字母。实例如：怕PAXM（M是白的第一画与生理类交叉点的对应字母）。规则比较麻烦，以后改进为“声韵声声”，怕PAXB，X、B分别是竖心和白的读音字母。这已是典型的音形编码了。

汉字编码的盛期

由于科学大会的召开，改革开放的推行，微机技术的发展与普及，专利法的实施，汉字编码在80年代进入了盛期，新方案不断涌现，总数达700 多个。其中，优秀方案的综合指标比早期有很大提高，并投入实用。1986年3月，国家有关部门举办了全国汉字编码方案评测，有33个方案参评，评出11个A类方案，它们是：大众码、五十字元码、声数码、宏观字形码、层次四角码、前三末一码、部形编码、笔形编码、联合45-3码、CK码、JDL无间隔码。11个A类方案的平均输速为43.16字/分，这些方案主要是单字方式输入。1987年10月，中国中文信息学会等组织的“中华杯”汉字录入赛，操作员在规定字比赛中最高输速达70字/分，而在自选字比赛中均达100 字/分以上；1990年，在海峡两岸中文电脑表演赛上，专业操作员单字输入达147.8字/分，词语输入达203.3字/分。从这两次比赛上可以看出两大趋势：⑴第一次是形码夺魁，以后是音码领先；⑵词语输入成为主导方式。

词语输入是编码进入盛期的重要标志。对于二字词，形码方式取每字的一、二字根代码，音码方式取每字的声、韵代码；对于三字词，形码方式取一、二字的第一字根代码和第三字的一、二字根代码，音码方式取一、二字的读音首字母和第三字的声、韵代码；对于四字以上词，形码方式取一、二、三、末字的第一字根代码，音码方式取一、二、三、末字的读音首字母。词语输入使击键次数大大减少，输速上升许多。词语输入，对形码来说，仍然要掌握字根总表和全部拆分规则；对音码来说，只要掌握汉字的声韵即可，并能靠视读后的语音记忆成句输入，这大概是音码快过形码的原因。

在词语输入方式下，2字至20字或更多字，一般用4字母即可输入，如“国务院办公厅”GWYT（一二三末），这样，8字一句，平均每字0.5键次；16字一句，平均每字0.25键次。有人拉长句子编码选特定文章表演，说每分钟能输入500 字，这是可以做到的，但只能是特定文章，对于一般文章就不行。我们也不能根据这种特殊表演断定编码的好坏。

这一时期普遍采用标准键盘输入，多数用26字母键输入。此外，在程序设计上，还出现了高频先见、词语联想等功能，对于初学者来说，增加了易学性，对于熟练的操作员来说，这些功能则没有什么用处。

这一时期的汉字编码输入技术的长足进步，已在电脑打字、激光排版等领域大显身手。印刷业已经完全可以取代传统的铅字印刷，并且具有更好的质量、更高的效率、更舒适和更小型的工作环境。人们兴奋地赞扬说，印刷业开始告别铅与火而进入光与电的时代了。

汉字编码技术将如何发展

汉字编码方案已有700 多个，有人说，太多了，真令人眼花缭乱，应该选择一、二种作为规范或标准，以结束五花八门的混乱局面。另一些人说，汉字编码这么多，还没有一个理想的。从中文信息处理的高标准衡量，这后一种意见有一定的道理。

理想的编码是什么？是没有编。好像问：理想的国家是什么？是没有国家（世界大同），国家总是阶级压迫的工具。汉字编码仿佛是中文信息处理的镣铐，砸烂镣铐，才能自由奔腾、尽情舞蹈。目前的汉字编码输入，基本上是完成抄写机的任务，特别是字形编码，连排序都不能解决，情报检索、机器翻译更不行。钱伟长教授曾说：好的汉字编码还没有出来。好的汉字编码应该是一种文字，或者是一种准文字。

日本的汉字输入，开始用大键盘，以后用编码输入，最后采用输入日语罗马字转换为日本汉字，已研制成功日语罗马字——汉字假名翻译机。日本的电报早采用了日语罗马字（拼音）电报。已有学者预测，中国会走汉语拼音文字输入的道路，研制“汉语拼音文字——方块汉字翻译机”，以彻底解决中文信息处理的难题。这当然是长远的计划和目标。就近期而言，汉字编码的分项参数和综合指标都会有新的研究、新的提高，新的发展。

有人提出，汉字键盘输入分三个阶段：字处理、词处理、句处理三阶段。由于技术发展的原因，初期不能完成词处理（严格说是多字词处理），只能输入单字，划分为字处理和词处理阶段是合理的，也符合实际情况。在字处理阶段，100%采用单字处理；在词处理阶段，约有70%—80%采用多音节词处理，其余用字（单音节词）处理。实际上，在词处理中，已包含一部分词组、短语和句子。句处理，应该说一篇文章有70%—80%采用整句方式输入，我们至今没有看到这样的编码，有这样的电脑，将来也不大可能用。科学研究表明，人眼的视域宽度为8个字母，就算8个汉字吧，一个32字的句子，人眼要扫视4 个视域才能看完，看了后面会忘了前面，整句输入显然不便。一句中看一段输一段，实际还是词输入。退一步说，句处理能够成立，那么，其后的第四阶段该是段处理，第五阶段是篇处理，第六阶段是本（册）处理，这是不可能的。今后的编码基本以词输入方式为主发展。

智能化与汉字编码输入

现在的电子计算机采用大规模和超大规模集成电路芯片，属于第四代计算机。1981年，日本公布了研制第五代计算机的战略文件，引起世界性震动。第五代计算机具有存储知识、分析、判断和推理的能力，并且有语言、图形、图像处理和多种智能的本领，一句话，是具有人工智能（AI）的计算机。在这样的智能机还没有研制出来的今天，把智能化汉字编码输入过分渲染是违背科学的。很多人认为，计算机只能模拟人的智能，由人控制，给它输入什么，它才能输出什么，如此而已。

在数值运算中，因每个数字和运算符号都有单义性，唯一性，所以，虽经上万上亿次运算，其结果都会准确无误。如果加号和乘号是同一个符号，虽经几次运算，其结果也难以确定。同理，汉字信息处理也是如此。如果每一字词都对应单一的、唯一的码组，其输入输出的结果也会准确无误。但是，现在的汉字编码，绝大多数方案中单字有重码、词组有重码，输入输出的结果实难准确无误。这就是说，在文字信息处理中，语义信息是靠语音、字形等信息确定的，如果语音、字形信息本身残缺不全，要靠语义信息弥补是困难的，或者要靠计算机的智能化来弥补也是不行的。

最早的拼音输入方式是在敲击声母韵母后，显示出一串同音字（按区位或频度排列），如双拼hd: 1好2号3毫4耗5豪6浩……然后选择输入。词语联想可以说是这种方式的扩展，如击键输入“好”字后，显示出一串能与“好”字组词的词尾，如：1转2多3比4感5汉6人7事……选按6可组成：好人，等等。这种智能化应该可能说是非常初级的。近来出现了“智能化字词相关处理”，如“世纪”、“试剂”是重码词，但可自动生成“二十世纪”、“化学试剂”。这是利用语言环境作出的处理。如果语言环境本身不清楚，这种相关处理就会出现困难。如：“新试剂”而不是“新世纪”，一般说，这又要人工处理了，而且重码词还有“实际”“史记”等15个以上，用“相关处理”彻底解决重码词输入的困扰，就目前来说还不可能。

要彻底解决此问题，首先要在词语编码上加以区分，如“世纪”、“试剂”、“实际”，要增加词义或字形信息的识别吗，要增设标明声调的字符，这样，编码的码长就增加了。智能化越高，编码单义性就应越强，最后，编码就演变成一种文字了。

电脑阅读：文字的模式识别

电脑能不能阅读文字呢？应该说能“阅读”。50年代，国外试验了识别特殊字体的阅读机，得到初步成功。60年代末出现了识别手写体阿拉伯数字的实用机器，并已商品化。70年代的研究重点转向手写体拉丁字母和印刷体汉字的识别。80年代初，欧美已有识别机3000台以上，日本也有1000台以上。输入速度一般是每秒2000-3000个字符，据说最高的可达14400个字符，错识率、拒识率都很小，这种识别速度比人眼快100 倍。这是识别拉丁字母的机器。

光学字符识别机的构造，主要包括三个部分：一、文字模式的获取装置：即由送纸机构，把要识别的文字材料送到光电转换器中，光电转换器以扫描方式把文字符号转换成模拟视频信号，再按照一定的阈值转换成二进制点阵信号。以上步骤类似于无线电传真与黑白电视的信号处理。二、文字模式的分析装置：把前一装置中得到的字符电信号，进行消除噪声和压缩信息的预处理，再根据文字符号的骨架、端点、节点进行粗分类，抽取其几何图样的特征，按从上到下、从左到右的顺序来排列特征值，并对它编码，送入下一装置。三、文字模式的判别装置：事先这个装置为字库中的每一个字符准备一个标准化的图形，并以点阵编码方式储存在内。然后将前一装置传来的字符特征编码，与事先储存的标准化图形进行比较，由粗到精，逐级分类，得出结果，作出最后的判别。

字符数量大、差别小，就容易造成错误。手写体的1和7、3和5就容易相混。相反，字符数量小、差别大，区别性特征多，就比较容易识别。拉丁字母与阿拉伯数字印刷体的识别率已达到99.99%，这个指标在美国和日本都能实现，我国也接近这个指标。

日本和美国较早开始汉字识别机的研制，70—80年代，日本有一项“印刷体汉字的识别”计划，提出了各种方案，但没有圆满实现。研究者的结论是：困难与其说是原理上的，不如说是技术上的。拉丁字母用16×16的网格点阵就够了，而方块汉字用60×60的网格点阵还不够。日本常用汉字有2000个，比26个英文字母多75倍，为了区别众多的字符，所要处理的信息量达到英文字母的500 倍以上。中国国标一、二级汉字有6763个，其识别难度将是英文的2000倍。目前市场上的各种手写识别系统，一般只能识别单个汉字，其有效识别率最高只有94%，专门识别印刷体汉字的系统，其识别率也仅在98%左右。

机器翻译的概况

机器翻译，是要让机器代替人工翻译。机器翻译的过程可分为四步：一、源语文输入：把所有翻译的源语文的拼音文字材料，通过计算机键盘输入；也可用光学识别方式输入。二、源语文的识别与分析：计算机按照间隔符号识别源语文的一个个单词（语义的最小单位），再根据标点符号和一些特征词识别句法和语义。然后查找机内储存的词典和句法表、语义表，把这些加工后的语义信息传输到“规则系统”中去，从表层结构分析到深层结构。三、目的语文的生成与综合：将前两个过程倒转过来，即从深层又回到表层，生成目的语文的表层及各层次的结构。四、计算机内翻译加工处理完成，得到的是一连串二进制数字信号，然后将这些数字信号转换成文字。如果两种语文都用拉丁字母，输出和输入可用同一终端。如果两种语文用的是不同的拼音字母，则要另配一套终端。

在机器翻译领域，最令人头痛的是有关汉字汉语的翻译。即使费大力研制出自动翻译汉语的终端设备，机器的效率也很低，并且，昂贵的设备造价会把自动翻译的优点化为零。专家们认为，机器翻译汉语的最现实可靠的出路，就是采用汉语拼音文字、采用拉丁字母系统。

机器翻译从50年代开始研制至70年代进入第二代，即以形式语言学为指导理论，以句子为加工单位，句对句的机器翻译。1971年，有台将俄文译成法文的机器，翻译的质量并不十分理想。经统计，完全可以理解的译文句子占50%，勉强可以理解的句子占28%，无法理解的句子占22% 。这是花了巨大投资的结果，引起了严厉的抨击，机器翻译的研究，曾一度走入低潮，有人提出，完全自动化的高质量翻译是不可能的，起码在不久的将来是不可能的。

人们继续研究，科学家认为，机器翻译必须与人工智能联系起来，开始了第三代机器翻译的研制，这是以智能模拟的语义学和自然语言理解为指导理论，以语义分析转换基础，以句段为加工单位，句段对句段的机器翻译。对此，已引起了广泛的注意。在美国，许多专家预计在不久的将来，可以通过人工智能从根本上改进机器翻译的质量。

机器辅助翻译，又叫半自动翻译。先把大量的术语、成语和词组资源储存在计算机里，计算机在比较浅的层次上对词汇部分进行检索处理，人则在较深的层次上对句法、语义和修辞方面进行加工，这是提高翻译速度和质量，减少费用的较有实际价值的方法。

mentat

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
中文信息处理

用电脑加工中文人类生活在信息的海洋之中，分分秒秒离不开信息。语言文字是人类社会特有的信息。信息处理方法的每一次重大革新，都促使人类社会进入更文明的阶段。在古代，烽火台的狼烟传递的是战争信息；纸和活字印刷术的发明，是信息表示和储存方法的革命；电报、电话、电视的发明，是信息加工和传输方法的革命；打字机、电传机、排铸机的发明，使语言文字的信息处理走上了机械化阶段；电子计算机作为强有力的信息处理工具
复制链接

扫一扫

专栏目录