xx

  记录学习中的点滴.


  英->汉, 有英汉平行文本.


  噪声信道模型: 噪声心道模型假定, 源语言中的句子  是由目标语言中的句子  经过含有噪声的信道编码后得到的. 那么, 如果已知了  和信道的性质, 我们可以得到  产生  的概率, 即  . 而寻找最佳的翻译结果  也就等同于寻找:

  

  利用贝叶斯公式, 上式等于

  

  以文字来描述词公式,  : 英文,  : 中文.

   : 英文句子  翻译为中文句子  的概率.

   : 中文句子  翻译为英文句子  的概率.

   :  为表达合理的中文句子的概率.

   :  为表达合理的英文句子的概率.


  对于给定的句子的英文句子  来说  为常量, 上式等同于

  

  由此, 我们得到了两部分概率:

1, , 在此称为翻译模型.

2, , 在此称为语言模型.

从中国对翻译的传统要求 "信达雅" 三点上看, 翻译模型体现了信与达, 而雅则在语言模型中得到反映.


以下来介绍简单实现翻译模型与语言模型.


翻译模型EM算法

  利用EM算法来解决词语对齐及翻译概率表.


  平行文本为:

  I laugh 我 笑

  laugh loudly 大声地 笑


  英语词汇表 x : { I, laugh, loudly }

  中文词汇表 y : { 我, 笑, 大声地 }


  词汇间可以用  表示  翻译为  的概率.

  例如:  = P( 我 | I ) = 1/3.


   


  对于

  I laugh 我 笑

  laugh loudly 大声地 笑

  有 2 种对齐方式: 顺序 ( I 对应 我, laugh 对应 笑 ), 反序 ( I 对应 笑, laugh 对应 我 ).

  P( 顺序, 我 笑 | I laugh ) = P( 我 | I ) P( 笑 | laugh ) = 1/3 * 1/3 = 1/9

  P( 反序, 我 笑 | I laugh ) = P( 笑 | I ) P( 我 | laugh ) = 1/3 * 1/3 = 1/9

  规则化后,

  P( 顺序, 我 笑 | I laugh ) = 1/2

  P( 反序, 我 笑 | I laugh ) = 1/2

  P( 顺序, 大声地 笑 | laugh loudly ) = 1/2

  P( 反序, 大声地 笑 | laugh loudly ) = 1/2


  重新计算词汇对译概率

  


  重新计算各句对顺序反序概率

  P( 顺序, 我 笑 | I laugh ) = P( 我 | I ) P( 笑 | laugh ) = 1/2 * 1/2 = 1/4

  P( 反序, 我 笑 | I laugh ) = P( 笑 | I ) P( 我 | laugh ) = 1/2 * 1/4 = 1/8

  P( 顺序, 大声地 笑 | laugh loudly ) = 1/8

  P( 反序, 大声地 笑 | laugh loudly ) = 1/4

  规则化后,

  P( 顺序, 我 笑 | I laugh ) = 2/3

  P( 反序, 我 笑 | I laugh ) = 1/3

  P( 顺序, 大声地 笑 | laugh loudly ) = 1/3

  P( 反序, 大声地 笑 | laugh loudly ) = 2/3


  将此过程反复迭代, 最终收敛. 可以得知 第一个句子对更倾向于顺序对齐, 第二个句子对更倾向于反序对齐.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值