小曹谈技术之机器翻译

    机器翻译,顾名思义,就是使用计算机来进行语言之间的翻译。机器翻译是一个非常困难的人工智能任务,研究了多年了,目前有一些可行的方法,但是效果还是不能与人工翻译的效果相比。最简单的一个机器翻译系统的实现,就是一个查词表的翻译。

    例如“我今天在学校吃的午餐”,现在手头上有一个词表,可以得到每个词的翻译。

    首先分词“我 今天 学校 午餐”,

    词表内容“我->I,”今天->today”,”->at”,”学校->school”,”->eat”,” ->of”,”午餐->lunch”.

    直接使用一一映射,将查询到的词表列出来,那么,对于上句的翻译就是“I today at school eat of lunch.这个翻译让人摸不着头脑。

在上面这个例子中,我们可以看到,里面存在下面这些问题:

1.       里面使用了映射词表,但是实际情况中,词表存在着很多问题。(1)同一个词的多种翻译,例如,“我”的翻译有“I, ”me”, ”myself”等,如何结合语境,选择合适的翻译,是一个很大的问题。(2)不存在的词,即未登陆词,如果待翻译的句子中出现一个词典中没有的词,该怎么办?比如,“午餐”这个词,词典中根本就没有收录其相应的英文翻译。

2.       词的顺序。可以看到,翻译出来的句子中词的顺序是混乱的。英文翻译中词的顺序与中文词的顺序是不一样的,所以翻译出来的句子让人看不懂。在翻译之后,需要对翻译出来的词的顺序进行一次重新排列,使其更符合人的阅读习惯,这也是一个很困难的问题。例如上面的翻译“I today at school eat of lunch”应该重调顺序为“I eat lunch at school today.

    目前最为流行的是统计机器翻译模型,最新出的还有基于实例的机器翻译,相关背景介绍在网上一搜就有,在这就不再累述了。

解决方法:

    统计条件概率,在某种情况下表现为某个词的概率。可以把其看成一个状态标引的过程,比如“我”和“今天”一起用时,“我”被翻译为“I”的概率较大。从所有的可能翻译组合中搜索一条最大化概率的翻译方案。传统的对条件概率建模的模型都可以用来对这个问题建模,如隐马尔科夫模型(HMM)模型,将源语言看成原始信号组成,将目标语言看成状态表现,适用viterbi算法找到概率最大的状态序列。还有如条件随机场模型CRF模型,最大熵模型ME等。另外,还有如基于模板匹配的方法,搜索在已有的翻译语料中找到最相似的源句子,然后对于其中不同的部分进行替换。

 

说说我与机器翻译的故事:

         当初加入CIR时,被分配到的是PT组,复述与翻译。实验室主任LT老师亲自挂帅,优秀ZSQ师兄作为组长,可见当时这个组在实验室的地位。当初粗略的接触了机器翻译,另外在本科毕设时做得英汉词对垂直搜索引擎,保研时通过了国内机器翻译研究水平最高的中科院计算所机器翻译实验室的笔试面试,差点就研究生阶段就从事机器翻译了。但是最后学校不让保送中科院计算所,导致我与机器翻译无缘了。

 

机器翻译相关系统及开源项目:

最出名的就是GIZA++了,搞过机器翻译的一定都知道,一个词对齐软件。

http://www.fjoch.com/GIZA++.html

Egypt, JHU主持开发的一个机器翻译开源项目。

http://www.clsp.jhu.edu/ws99/projects/mt/

基于短语的统计机器翻译系统Pharaoh(法老),由南加州大学的一位博士编写。

http://www.isi.edu/licensed-sw/pharaoh/

语言模型工具SRILM

http://www.speech.sri.com/projects/srilm/download.html

中国众高校开发的开源机器翻译系统-丝路(silkRoad

http://www.nlp.org.cn/project/project.php?proj_id=14

摩西Moses

http://www.statmt.org/moses/

基于句法的统计机器翻译系统——GenPar

http://nlp.cs.nyu.edu/GenPar/GenPar.html

评价机器翻译效果的工具GTM(General Text Matcher )

http://nlp.cs.nyu.edu/GTM/

 

 

 

To be continued

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值