该文章属原创,如转载请于作者联系!
王文峰
1 机器翻译的现状
1.1机器翻译及其发展历程
机器翻译(machine translation),又称自动化翻译,是利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。是一种高级的人工智能技术, 它是计算机科学、数学和语言学等多学科共同参与研制的结晶。机器翻译之所以成为可能,一是因为两种语言之间存在着可译性,二是因为人的翻译过程具有可模拟性。
机器翻译并不是一个简单的过程。它并不仅仅是选定文本的各个单词的翻译而是用目标语言把给定的句子或文本的所有单词都进行翻译,以达到对整篇文章的理解。自然语言根据各自的形态学,语法结构和语义学分成不同的语言,并且这些语言还包含了很多的模糊性。(所以机器翻译很难达到一个理想的程度)
最早的机器翻译起源于1933年,苏联人P.P.特罗绛斯基提出借助机器进行翻译的详细步骤,并设计出由一条带和一块台板依靠机械原理进行翻译工作的样机。1954年,美国乔治敦大学和国际商用机器公司(IBM)首次联合试验使用电脑机译系统,将250个词的俄文材料译成英文,这次试验的成功标志着机器翻译系统的真正诞生。
从20世纪60年代中后期到整个70年代,整个机器翻译领域处于一个相对平稳发展的时期,而在某些国家,特别是加拿大和欧盟,机器翻译的研究却取得了比较显著的进步。尤其是在加拿大,由于双语文化的影响,政府积极支持机器翻译的研发工作,1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了提供天气预报服务的实用性机器翻译系统TAUM-METEO,该系统的成功开发标志着机器翻译已经在某些领域达到了实用化的程度。 进入20世纪80年代以来,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译在全世界范围内开始复苏,并在随后的90年代取得了长足的进步。
我国从1956年也开始了机器翻译的研究,在“六五”、“七五”、“八五”和高技术研究发展计划(863计划)期间国家均把机器翻译列入重点发展项目。早期机器翻译主要以研究机构的学术开发为主,到了1992年,我国迈出了机器翻译软件商品化的步伐。中国软件与技术服务股份有限公司(以下简称“中软公司”)在 JFYⅢ翻译系统之上成功推出了“译星”1号软件产品,从而带动我国机器翻译进入了一个发展热潮期。
1.2机器翻译的方法
机器翻译领域的的研究方法基本上可以分为两大类,即基于规则(Rule-Based)和基于语料库(Corpus-Based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。传统的基于规则的方法又可以称为理性主义方法,与之相对,基于语料库的方法又可以称为经验主义方法。
基于规则的方法:机器翻译的主流方法一直是基于规则的方法。国际上有影响的机器翻译系统基本上都需要规则的贡献,即使在多种技术并存的系统中也有规则,基于规则的机器翻译技术思想是被普遍接受的、成熟的,也是到目前为止应用最广的方法。其优势在于可以很准确的描述语言的特征规律,符合理性思维。但是,语言规则的产生需要大量的人力,而且大量的语言规则直接往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。
基于统计的方法:基本思想是,把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。它为我们提供了很好的从已有的语言资源中自动得到我们所需要的语言信息的工具。基于统计的方法不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文的选择,避开了语言理解的诸多难题,但是语料的选择和处理工程量巨大,而且存在着数据稀疏问题。因此通用领域的机器翻译系统很少以统计方法为主。,
1.3 机器翻译产品及现有水平(存在的问题)
总体上说,机器翻译产品可以归为如下几类,一是传统的文本自动翻译产品;二是网页翻译,它常常与网上搜索引擎捆绑在一起;三是机器辅助翻译产品,它主要是帮助专业翻译人员提高翻译效率;四是电子版的双语词典,如著名的金山词霸,它主要是帮助熟悉外语的用户在计算机上阅读外语信息;五是口语自动翻译。
基于个人的机器翻译系统从1990年代初期开始出现,Systran Pro(专业版),Systran Classic(家庭版)环球衔接公司(Globalink)研制的Power Translator,语言工程公司(Language Engineering Corporation)研制的Logo Vista等,从大型机系统改造而来的有Systran Pro(专业版),Systran Classic(家庭版),Langescheidt(源自METAL&#x