机器翻译研究的展望

最新推荐文章于 2022-01-20 16:25:06 发布

mentat

最新推荐文章于 2022-01-20 16:25:06 发布

阅读量1.9k

点赞数

分类专栏：人工智能文章标签： translation 自然语言处理语言 dictionary 产品 reference

人工智能专栏收录该内容

66 篇文章 2 订阅

订阅专栏

没有能出席近期在美国召开的第6届机译峰会（MT SUMMIT VI, 10. 29 ~ 11.1, 1997）是个遗憾。只有好好的读读论文集，并通过e-mail跟一些朋友请教和讨论。这届会议的主题是“机器翻译的过去，现在，未来”，重要内容之一是庆祝机器翻译50周年。特别难得的是大会请到了多位机器翻译的先驱者，如机译研究的倡导者Andrew Booth，以及著名的机译系统的创建者，如SYSTRAN的Peter Toma，METAL的Lehmann等。他们谈到了当年的艰辛，也披露了一些鲜为人知的有趣的事情。
半个世纪以来，机器翻译研究虽几经曲折但终究已经得到了普遍的承认，其应用也已愈益广泛。特别令人鼓舞的是无论是国外还是国内现在已有那么多的商品化系统进入市场，尤其是PC机译产品。同时随着PC的普及以及为满足浏览因特网的需求，机译产品进入千家万户的趋势已开始显露。记得1996年夏天在新加坡的一次学术会议上遇到长尾真先生时，刚一提到机译研究，他就对我说日本一些计算机公司的人对他说如今机器翻译开始赚钱了。在他说这话时，脸上流露出的那种如释重负的快意，我能真切地与他分享。一个人用大半生的精力去从事一种似乎只有投入但迟迟不见产出的研究，并且还要不断地去说服别人相信这样的投资是值得的，年复一年，将承受多大的压力，这是只有那些亲力亲为，身临其境的人才能体会。当然，日本的情形可能也更加典型。据报道自1978年至 1993年日本在机译研究上的投资为2亿美元[Pedtke,97]。如今，日本的机译软件每年销量约为50万套，其中的大多数每套价格从100美元到1000美元不等 [Kamei, etal, 97]。总之，对机器翻译研究与开发而言，悲观的论调，否定的论调，如今已不多见了。但是我们也应清醒地看到对于机器翻译系统的翻译质量，用户的不满和失望的反映仍然是很普遍的，有时甚至很强烈的。任何对于机器翻译系统的翻译质量的过分夸大仍将是十分有害的。如何提高机译产品的翻译质量，仍然是摆在我们面前的严峻考验，也是机器翻译研究在迈向新世纪时面临的首要问题。
机译研究的突破点在哪里？这是本文要讨论的主要问题。

1. 机器翻译研究的突破点

谈到理论或技术的突破点，有人可能会想到诸如“基于规则”的或“语言学方法”的，“基于语料库”或“语料和统计方法”的等等，或者“经验主义”的， “理性主义”的等等。九十年代初期，在机译领域和在自然语言处理界的其他领域一样，它们的确曾经引起过一场争论。但人们很快地就认识到语言学方法和语料和统计方法相结合比相对立更好[Somers,97]。我们所要讨论的突破点，是指另外那些可能引起技术变革的关键问题。

1.1 从单句处理走向句群处理

迄今为止，绝大多数的实用型机译系统都是以一个句子为其加工单位的。也就是说它们的分析和生成都仅仅局限在一个孤立的句子范围内。所谓的上下文也就是这个孤立的句子而不是一个段落或若干个连贯的句子。这样狭窄的上下文很难给分析，即便是句法分析，提供较充足的信息，从而保证分析的正确性。机译系统的翻译质量的低劣多数是由于分析失败或歧义判别的错误造成的。例如：

(a) Sorry I can't go with you, I am going to the bank. I'll get a money order for the Immigation Office.

此例中的“bank”，如果判别仅限于一个句子，那是很难判对的。但是如果分析的范围是句群或一个段落，那就应该不难了。

又如：

(b) 昨天我买了好几本画册，印刷质量相当好，就是太贵了。

这里，现有的汉英机译系统很难解决后半部的省略问题，因此生成出来的英语译文实际上有英语语法错误。如果你手头有汉英机译系统也不妨试试。

另外，如果一个段落中的一个一个孤立的句子的分析都是正确的，是否就可以生成高质量的译文呢？也不一定。尤其是源语言和目标语差别大的，如英语和汉语，或日语和英语，就更不好说了。试看：

(c) The school bus came and picked up the boys punctually as usual. When the bus drove near the school, John felt sick and his face went terribly white.

这里，如果第一个“(school) bus”译成“校车”，而第二个“bus”却译成了“公共汽车”，或者第一个“(school) bus”译成“学校公共汽车”，而第二个“bus”也是“公共汽车”，都是很别扭的译文。然而很遗憾，现有的英汉机译系统只能如此了，因为它们只是处理孤立的单个的句子。如果你手头有英汉机译系统不妨试试。美国南加州大学与SYSTRAN的合作中，曾就在段落层面上改进译语生成质量的方面做过很好的探索[Hovy, 97]。

新一代机器翻译将采取句群处理。所谓“句群”，我们指的是一个完整的段落或者一个段落内若干个连贯的句子，总之是超过一个句子。句群处理绝不是处理句子数量的简单的增加。句群处理的本质是使机器翻译基于文本理解。这里至少有两个必须面对的问题。

第一，选取句群的大小。一般地说一个包含6~8个句子的完整的自然段落是理想的。并不是句群愈大愈好。段落太大，前后的相关性可能很低。分析时相关信息的可靠性也将很低。这样一来可能反而造成误导。另一方面，如果句群太小，即便是一个自然段落，也因为相关信息不够而不很理想。

第二，构筑句群语言模型。传统的机译系统在分析时求解的是一个句子的句法树。即便是同一段落的若干句子，它们的句法树之间也没有建立起任何联系。多个句子之间要建立的不是传统的句法树，而应该是语义网。这就是我们所说的要构筑句群语言模型。

如上所述，与当今的机译系统相比，新一代的系统的分析深度将有很大的不同。这里，句群语义网将取代单句的句法树[Nagao, 97]。迄今为止，分析中的一些典型的难题如指代，省略等等的解决从根本上都要依赖于语义的相关性。深度分析和句群处理是相互依赖，相互作用的。少了句群这样大的上下文，深度分析将无所依据；同时不进行深度分析，句群处理也没有实际意义。
为了满足深度分析的需要，新一代的机器翻译所采用的知识系统将有相应的变化，最显著的是它将采用强大的知识库。

1.2 新的知识系统

新一代的机器翻译所采用的知识系统将包含什么，有什么特点？众所周知，翻译至少需要两方面知识，一是语言文字的知识，二是世界知识，其中包括常识和专业知识。这对于人工翻译是如此，对于机器翻译也应是如此。但传统的机译系统的世界知识是非常有限的，如果不是完全没有的话。指望这样的机译系统能给出高质量的译文，甚至还能翻译各种专业的，各种文体的文本，实际上是很不现实的，因为即便是人工翻译也是做不到的。
新一代的机器翻译所采用的新的知识系统，除了还会包括主要反映语言知识的传统的词典和规则外，主要是将包含世界知识或常识。我们把它叫做关系语义知识库[董振东97]。我们所谓的新知识系统应具有如下主要特点：(1)它是一个提供对概念及其属性之间的多种语义关系的综合描述的系统，而不仅仅只是一个在线的义类词典；(2)它所描述的构架是网状的，而不是树形的。所谓的多种语义关系应包括哪些呢？根据我们的经验和对现有的某些系统的了解，大体可能包括如下：

上下位关系(superordinate and hyponym)

如：有生命--动物；自移--游泳

同义关系(synonymy or near-synonymy)

如：好--良好；医疗--医治

反义关系(antonymy)

如：长--短；胖子--瘦子

互补关系(complementarity)

如：生--死；买--卖

部分整体关系(whole-part)

如：手--人；天花板--房屋

角色关系(role-playing)

如：医生--施事（医疗）；医院--空间（医疗）

领属关系(possession)

如：道德--人；颜色--具体物；价格--万物+商品

指向关系(reference)

如：红--颜色；勇敢--胆量；贵--价格

领域关系(domain-sharing)

如：剧场--演艺领域；演唱--演艺领域

事件互感关系(event mutual inductance)

如：施事（购买）= 系事（得到）；

（领有）= 结果（得到）；

（领有）= 前提（失去）；

我们注意到近年来有许多学者或学术机构已开始进行这方面的工作[黄曾阳,97,Miller, et al, 90]。其中有一些虽然还不能算是真正的知识库，或还只是某种语义词典，如义类词典(thesaurus)，但可以看得出人们在朝着同一个方向努力，至少人们意识到应该加强知识库的建设。某些现有的系统也在大力地发展原有的词典，大大地增加其知识的含量[Gerber & Yang, 97]。

1.3 译文生成的改进

机器翻译研究人员注意到现有的机译系统的另一个重要缺陷是它们的译文无法摆脱源语的语法的束缚[Nagao ,97, Chang, 97]，因此很难生成自然的或地道的译文。如何得到地道的译文将是新一代的机译研究的又一个新突破点。如何才能达到这一目标呢？现在可以预测的途径有三种。

第一，建立更大规模的包含大量例子的双语语料库(translation memory)。这对于某些特定的语言环境是非常有效而且也是必须的。这样的例子我们不难从各种各样的标识的翻译中找到，如，“右侧通行”，“click here”，“no smoking”等等。

第二，设计一种固定的译文模板。我们正在研究针对每一个汉语动词设计一套固定的，包含若干角色槽(role slot)的语句模板，如，汉语动词“买”，有这样的角色槽(role slot)的语句模板：

“施事--(花了)代价-(给) 受益者 - （买了）领有物”= 施事 (bought) 受益者领有物for 代价

这里，“施事”，“代价”，“受益者”，“领有物”是角色。机译系统的分析的主要任务是装填固定模板所规定的各个槽。一旦某个模板规定的角色已经得到，便可以按固定的语句模板生成译文。由于两种语言已严格地对应好了，而且译文也是要严格地装在固定的句套里的，所以有可能较好地摆脱源语的束缚。这种方法的缺点是源语中的有一些可能被略去而造成漏译。这种方法对于开发用于网上浏览的机译系统会比较好，尤其是汉外机译系统。

第三，建立在句群处理的文本理解的基础上的高质量译文生成。这里同样需要某种固定的译文模板，只不过这样的模板所依据的不仅仅是单个的词，而是一个故事。其实这类的研究若干年前就有人做过探索，虽然语境相当局限，如交通事故等。

2. 开发中的值得注意的趋势

随着计算机硬件以及与语言处理相关的软件平台的高速发展，也由于机器翻译自身技术的不断进步，机器翻译已开始走向产业化。因此未来机译产品的某些发展趋势应该引起我们关注。

2.1 领域的专业化

现有的大型机译系统一般都包含多部专业技术词典，虽然其它部分都是共有的，却号称可以翻译多种专业领域的文本，不同的领域采用不同的专业词典就是了。我们把这样的系统不妨叫做“百搭系统”（实际上是“粗放系统”）。人工翻译也不可能有百搭的翻译大师。没有人会是万事通。每个人的知识结构都是有限的。既然人都做不到，又如何能指望现有的机译系统做到呢？现有的这种“百搭系统”，是不得已而为之的产物，绝非人们理想的产品。它在未来将会让位给真正的专业化系统，例如汽车专业机译系统，航空专业机译系统，（医学）外科专业机译系统等等。专业化系统与“百搭系统”明显不同之处在于它们有着不同的知识结构。
专业化系统不仅包含专业词典，而且它会有相应的本专业的其它知识库，其形式可能是规则库，也可能是强大的双语语料库，或两者兼有之。而且这样的系统在其研制与开发的过程中都曾针对本专业进行过专门的调试。现在有些开发商担心竞争太激烈。我们认为如果大家都只是开发质量不相上下的“百搭系统”，那末那种低水平的竞争就是不可避免的。机译系统的研制与开发将来会出现专业分工的趋势。那么多的语种要面对，那么多的专业要处理，机译研究实在是大有可为，而不是由于竞争激烈而路子愈来愈窄。愈是多样化，市场就会愈宽阔。如何研制与开发专业化系统将是我们的新课题。

2.2 应用的多样化

应用面向的多样化将是未来发展的又一个趋势。因特网的出现在多大的范围和多么深远的程度上影响着人类社会，现在还不容易确切地估计。信息社会的到来使克服语言障碍的需求变得更加迫切。近几年各种具有翻译功能的浏览器和网上在线的翻译系统真可谓如雨后春笋。它们有的是在线的词典，为用户提供一种随机捕捉词语的功能。有的则是提供在线的全文翻译，其中有的是嵌入某个搜索引擎，如SYSTRAN在1997年12月推出了AltaVista/SYSTRAN网上多语种翻译系统。如你有兴趣的话，可以试试[babelfish]。也有的机器翻译机构在网上提供收费的远程翻译服务，如每个词收0.01美元。网上在线翻译系统面临着更严峻的考验。它们更难应付网上的五花八门的语言文字。如果质量太糟，还不如只提供词典功能呢。
另外，随着语音识别的实用化，可以肯定语音（言语）机器翻译的实用化也将很快到来。届时，我们可以看到电影字幕翻译，电话自动翻译，以及服务于会议，订票的系统等等。

2.3 开发周期的缩短

与前一个十年相比较机译系统的开发周期现在已明显缩短了。这也是研究人员和开发商应该注意的。以我国为例，我国第一个商品化机译系统从研究到推出经历了十一年，而且推出时该系统还是很幼稚的。开发周期的缩短主要原因是硬件环境的极大改观，以及经验与信息的积累和交流加快。在知识密集特别是知识工程领域中，长期以来重复劳动的情况是很普遍的，它严重地影响了研究的速度。如今因特网的出现更加有力地推动了技术与信息的交流与共享。在因特网上人们为科学研究可以几乎免费地得到各种各样的词典，语料库，甚至分析引擎。这一定会大大加快实验的进度。我们预料在自然语言处理领域将很快推出各种功能组件，如句法词典，语义词典，分词软件，同形词判别软件，分析引擎，词义歧义消除软件等等。开发一个系统可以购买不同的组件进行组装，修订和调试，而无须一切都要自己来，一切都从零开始。实际上基于语料库的方法正好可以满足这种要求。大家来共建语料库，大家也共享语料库。日本各有关公司通过亚太机译协会推动不同的机译系统的用户词典的共建共享的做法[kamei,97]很值得学习。
机器翻译走出实验室并迈向产业化对研究提出了更尖锐的挑战但同时也提供了更好的机会。如何使机译商品化与学术研究更好的结合也是一个新课题[Gerber, 97]。我们希望机器翻译将以其新的突破来迎接新世纪的到来。

参考文献

Chang, Jing-shin, Keh-yih Su (1997) Corpus-based Statistis-oriented (CBSO) Machine Translation Researches in Taiwan, MT Summit VI Proceedings
Gerber, Laurie (1997) R&D for Commercial MT, MT Summit VI Proceedings
Gerber, Laurie, Jin Yang (1997) SYSTRAN MT Dictionary Development, MT Summit VI Proceedings
Hovy, Eduard & Gerber, Laurie (1997) MT at the Paragraph Level: Improving English Synthesis in SYSTRAN TMI '97
Kamei, Shin-ichiro, et al, (1997) Sharable Formats and Their Suppoting Environments for Exchanging User Dictionaries among Different MT Systems as a Part of AAMT Activities, MT Summit VI Proceedings
Miller, G.A. et al, (1990) Introduction to Wordnet: an on-line lexical database, International Journal of Lexicography 3 (4), (special issue)
Nagao, Makoto (1997) Machine Translation Through Language Understanding, MT Summit VI Proceedings
Pedtke, Thomas R. (1997) U.S. Government Support and Use of Machine Translation: Current Status, MT Summit VI Proceedings
Somers, Harold L. (1997) The Current State of Machine Translation, MT Summit VI Proceedings
董振东，董强 (1997) 词语关系语义知识的获取与表达 -- 词语关系语义知识库的建造, JSCL "97
黄曾阳 (1997) HNC理论概要，中文信息学报，Vol.11 No.4
http://babelfish.altavista.digital.com