GIZA++实现了IBM模型1~5 IBM Model 1详解

IBM model是统计机器翻译中的经典翻译模型,也是基于词的统计机器翻译系统的基础。IBM翻译模型共有5个复杂度依次递增的统计翻译模型,IBM model1是其中最简单的模型,也是其他模型进行计算的基础。IBM模型1仅仅考虑词对词的互译概率,模型2引入了词的位置变化概率,而模型3加入一个词翻译成多个词的概率。

为翻译模型建模

    假设任意一个英语句子e和法语句子f,定义f翻译成e的概率为P(e|f),于是将f翻译成e的问题则变成求解

                                    IBM翻译模型1总结理论篇(原创)                                      1

根据噪声信道模型,统计机器翻译要寻找e使得满足公式(1)。

IBM模型注意到翻译模型中的一个隐含变量信息,及即句子中词语的对位信息:对齐A。于是有:

                               IBM翻译模型1总结理论篇(原创)                                   2

假设英文串e的长度为l,记做。法语串f的长度为m,记做IBM翻译模型1总结理论篇(原创)。则对齐a可以由一串包含有个值的位置信息记录,表示法语句子中单词对应英语句子单词的位置。IBM翻译模型1总结理论篇(原创),每个值的取值范围为IBM翻译模型1总结理论篇(原创)。因此,

                 IBM翻译模型1总结理论篇(原创)            3

具体的证明参考http://luowei828.blog.163.com/blog/static/31031204201123010316963/

该公式可以理解为:根据英文句子生成一个法语句子以及对齐过程。首先根据英文句子选择法语句子长度,其次选择第一个法语词串的链接位置,然后根据英语句子、法语句子长度、法语句子第一个词对应英语句子的位置选择法语句子的第一个词(比较拗口-_-!)。由此类推,则可以生成整个法语句子。

 

引出IBM模型1

    IBM模型1对公式(3)进行化简,并做出如下假设:

1)假设P(m|e)与目标语言e和源语言长度m无关。

2)假设

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值