估计概率构造短语翻译表

转载 2015年11月21日 16:42:44
经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。

        在上一节,我们得到了短语对集合,如下图所示:


        在这里,我们估计概率主要进行四个分数的计算,即双向短语翻译概率(正向:“源语言->目标语言”方向;反向:“目标语言->源语言”方向 )、双向词汇化权重。首先,在上图上方给定的含有词对齐的句对中,通过上一讲中的短语对抽取算法抽取出14条与词对齐保持一致的短语对,短语概率估计是在图1结果的基础上进行的(在进行概率估计时,短语对集合需要保留词对齐信息)。


1)双向短语翻译概率

       “源语言->目标语言”短语翻译概率 


       在公式(1)中,短语翻译概率使用极大似然估计(maximum likelihood estimation)进行计算。其中count(f,e)
表示源言语与目标语言短语对(f,e)在大规模双语平行句对中出现的频次,分母表示以f作为源语言端短语的短语对在大规模双语平行句对中出现的频次。


     “目标语言->源语言”短语翻译概率 


        反向的短语翻译概率与正向短语翻译概率计算方式相同,在公式(2)中,count(e,f)表示目标语言与源语言短语对
(ef ) 在大规模双语平行句对中出现的频次,分母表示以e作为目标语言端短语的短语对在大规模双语平行句对中出现的频次。 
       当使用的含有词对齐信息的双语平行句对的规模比较大时,抽取出来的短语对集合文件是非常大的,文件大小甚至会达到几个GB或几十GB。所以,在使用公式(1)、公式(2)计算短语翻译概率时,需要对文件进行外部排序,以避免文件内容全部加载至内存中。以公式(1)为例,如果对抽取出来的短语对集合文件按照源语言端短语进行排序,这样具有相同源语短语的短语对在文件中将是依次出现的,此时仅需要同时读入有限的短语对至内存中便可进行条件概率分布分数的计算。 
       在基于短语的统计机器翻译系统中,经常仅仅使用双向的短语翻译概率。在这种情况下,数据的稀疏性或不可靠的数据源可能会产生一些问题。如果短语e和f都只出现一次,那么短语翻译概率Pr( e|f ) = Pr(f |e ) = 1 ,这通常过高的估计了这种短语对的可靠性。为了判断不经常出现的短语对是否可靠,通常做法是将短语对分解成词的翻译,这样就可以检查短语对的匹配程度,这种方法称为词汇化加权,该方法是一种基本的平滑方法。


2)双向词汇化翻译概率

     “源语言->目标语言”词汇化加权


       词汇化加权(lexical weighting)特征是将源语言端和目标语言端短语分解成词汇,进而检查词汇间的匹配程度。即源语言端短语f中词汇f1, f2, f3...与目标语言端短语e1, e2, e3...中词汇的匹配程度。其中w(e|f)计算公式如下公式(4)所示,该公式可以从含有词对齐的大规模平行句对中进行估计。在公式(4)中,count(f,e)表示的是词对(f,e)在大规模双语平行句对中出现的频次,分母表示以f为源语言端词汇的词对在大规模语料中出现的频次。 


       以最上面的图中短语对“北京 房价 持续 上涨,beijing housing prices continued to rise”为例,公式(3)的具体计算方式如下所示:


        公式(3)是一个二重循环问题,在外层循环中,从目标语言端第一个词汇遍历至最后一个词汇,将概率值进行连乘;在内层循环中,当前目标语言端词汇为ei, 计算不同fj翻译为ei的概率和的均值。


    “目标语言->源语言”词汇化加权

    “目标语言->源语言”方向词汇化加权与公式(3)相似,具体如公式所示。


       在公式(5)中,w(f|e)计算如公式(6)所示。其中公式(6)说明与公式(4)类似。


       这里依旧用短语对“北京 房价 持续 上涨,beijing housing prices continued to rise”为例,公式(5)的具体计算方式如下所示:


       此处具体计算方式的解释与上文相似,在此不再赘述。到这里,短语翻译表中最常使用的4个概率特征及其计算方法介绍完毕。



估计概率构造短语翻译表

经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。         在上一节,我们得到了短语对集合,如...
  • gmj4850
  • gmj4850
  • 2014年02月26日 21:27
  • 582

机器翻译重要过程(4)---估计概率构造短语翻译表

经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。         在上一节,我们得到了短语对集合,如下图所...
  • yaoqiang2011
  • yaoqiang2011
  • 2013年08月25日 06:04
  • 3715

层次短语模型学习笔记

摘要: 层次短语模型,顾名思义,短语是具有层次关系的。机器翻译中,最重要的就是两点,第一点选词问题,第二点调序问题。层次短语模型通过“变量规则”融合了选词以及调序问题。由于源语言以及目标语言表达的不同...
  • u013011270
  • u013011270
  • 2014年04月26日 15:12
  • 1849

机器翻译重要过程(3)---抽取短语

上一步通过GIZA++进行词语对齐,我们得到了对应的中英文词对,在此基础上我们就可以进行第三个重要过程了,即抽取短语。短语抽取是短语翻译表构造的第一步,而短语翻译表是翻译系统解码器的要使用到的最重要组...
  • yaoqiang2011
  • yaoqiang2011
  • 2013年08月25日 13:23
  • 4645

概率估计(极大似然估计、拉普拉斯平滑定理、M-估计的关系)

英文原文链接:http://www.temida.si/~bojan/probability_estimation.php 原文: Probability estimation 1 Intr...
  • xinhanggebuguake
  • xinhanggebuguake
  • 2013年04月06日 22:55
  • 8089

小样本时的概率估算

本文严重参考了《Foundations of Statistical Natural Language Processing》和《MaximumEntropy Language with Non-L...
  • axuanwu
  • axuanwu
  • 2015年07月06日 09:09
  • 847

CABAC 学习(4)概率更新模型分析

CABAC- context-based adaptive binary arithmetic coding
  • cj423889
  • cj423889
  • 2014年06月16日 12:34
  • 798

利用LIBSVM估计概率

前言在研究分类问题时,可能会遇到需要分类器返回样本属于每一类的概率,而不是直接输出该样本的类别的情况。因为之前一直使用opencv库进行开发,所以也想在opencv的ml模块寻找是否有对应功能的SVM...
  • u011853479
  • u011853479
  • 2016年05月05日 20:43
  • 2848

概率密度函数估计

首先来看贝叶斯决策,贝叶斯分类器就是根据如下贝叶斯公式来设计的。最常用的就是比较后验概率的大小,进行类别决策。(也就是基于最小错误率的分类器,还有其他的比如基于最小风险,NP决策等)。     ...
  • zengxiantao1994
  • zengxiantao1994
  • 2017年06月03日 17:58
  • 1229

统计自然语言处理的基础学习之一

1. NLP的一些基本概念和问题 计算机如何处理自然语言? 理性主义:其实就是纯粹使用规则的方法处理自然语言,并认为这些语言规则天生就存在人的基因中。在计算机中重现这些规则,就能学会人的语言处理能力。...
  • viewcode
  • viewcode
  • 2013年09月04日 08:32
  • 7079
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:估计概率构造短语翻译表
举报原因:
原因补充:

(最多只允许输入30个字)