机器翻译之人工智能方法

基本介绍

最早机器翻译是基于规则的词语翻译(rule based machine translation, RBMT),因为无法解决词语多重含义和句子结构多样性,这种方法现在已经不再使用。

几年前,机器翻译界的主流方法都是Phrased-Based Machine Translation (PBMT),当时Google 翻译使用的也是基于这个框架的算法。所谓Phrased-based,即翻译的最小单位由任意连续的词(Word)组合成为的词组(Phrase)。其本质上属于统计机器翻译Statistical Machine Translation (SMT),即基于概率统计而非基于规则来学习源语言到目标语言的映射函数。90年代提出的IBM model是统计机器翻译中的经典翻译模型,也是基于词的统计机器翻译系统的基础。IBM翻译模型共有5个复杂度依次递增的统计翻译模型,IBM model1是其中最简单的模型,也是其他模型进行计算的基础。IBM模型1仅仅考虑词对词的互译概率,模型2引入了词的位置变化概率,而模型3加入一词翻译成多词的概率。SMT在整个翻译过程中,需要依次调用其他各种更底层的 NLP 算法,比如中文分词、词性标注、句法结构等等,最终才能生成正确的翻译。这样像流水线一样的翻译方法,一环套一环,中间任意一个环节有了错误,这样的错误会一直传播下去(error propagation),导致最终的结果出错。

深度神经网络提倡的是端到端学习,即跳过中间各种子 NLP 步骤,用深层的网络结构去直接学习拟合源语言到目标语言的概率。最新成果来自于论文:“Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”。该成果的评价是:“各种算法综合积累的成果,是过去几年自然语言处理领域好方法的集成,集成了Seq2Seq + Attention + Stack LSTM + Minimize Sentence Loss,方法学上的贡献不多,实验经验的贡献比较多”。本质上是在NMT(Neural Machine Translation)的基础上所做改进。

在众多的机器翻译自动评价方法中,2002年IBM提出的基于N-gram精确率的BLEU方法是目前采用最广泛的。BLEU测度的原理是计算待评价译文和一个或多个参考译文间的距离。距离是文本间n元相似度的平均,n=1,2,3(更高的值似乎无关紧要),即统计同时出现在系统译文和参考译文中的n元词的个数,最后把匹配到的n元词的数目除以系统译文的单词数目,得到评测结果。也就是说,如果待选译文和参考译文的2元(连续词对)或3元相似度较高,那么该译文的得分就较高。一般来说人的 BLEU 值在50-70之间。

启示:在体验度量中,建议考虑一种方法和机制来进行自动评价模型的效果,该方法和机制可以不受网络设备端的约束,只是作为一种自动反馈

虽然SMT现在被NMT取代,但从目前准确率来看差距并不是很大,因此还是有参考价值

 

思路分析

SMT

业务建模

  1. 基于贝叶斯理论来考虑翻译问题,就是在给定一个条件下,找到概率最大的结果,这个假设符合语言领域的实际情况,比如人类总是按各自母语的语法和规则来讲述自己的语言,每个句子中词语先后顺序和关联关系都形成了一种概率分布。具体的,下图中f表示源语言法语,e表示目标语言英语,目标就是找到p(e)为max的e。P(e)是表示句子是合法的英语句子的可能性,也叫做语言模型;P(f|e)是表示该翻译出的英文句子表达的意思与原来法语句子所表达的意思有多大的相似,或者说表达出多少法语句子中的意思,也叫做翻译模型。下面的公式就这样形式化地描述了整个翻译过程中的3个问题——语言模型、翻译模型以及解搜索。

https://img-my.csdn.net/uploads/201304/08/1365419912_4134.jpg

该模型为噪声信道模型,它假定源语言中的句子f是由目标语言中的句子e经过含有噪声的信道编码后得到的。p(e)表示语言模型,即e是否像一个句子。p(f|e)表示翻译模型,即是否忠实于原文。至此,模型拆分为2个问题。首先,对于语言模型表示如下图

 

在实际中,常用马尔可夫假设来简化该问题,即下一个词仅仅依赖前面若干词,称为n-gram模型,n=1和2情况如下所示

P的计算是直接从语料库中统计得到,目前资料来看以trigram模型表现最佳。

(启示:对应体验度量,令A表示网络参数为A的概率,令B为体验为差的概率,那么目标表示为P(B|A)=P(A|B)P(B)/P(A),其中P(B)表示整体情况下体

  • 5
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值