记录学习中的点滴.
英->汉, 有英汉平行文本.
噪声信道模型: 噪声心道模型假定, 源语言中的句子 是由目标语言中的句子 经过含有噪声的信道编码后得到的. 那么, 如果已知了 和信道的性质, 我们可以得到 产生 的概率, 即 . 而寻找最佳的翻译结果 也就等同于寻找:
利用贝叶斯公式, 上式等于
以文字来描述词公式, : 英文, : 中文.
: 英文句子 翻译为中文句子 的概率.
: 中文句子 翻译为英文句子 的概率.
: 为表达合理的中文句子的概率.
: 为表达合理的英文句子的概率.
对于给定的句子的英文句子 来说 为常量, 上式等同于
由此, 我们得到了两部分概率:
1, , 在此称为翻译模型.
2, , 在此称为语言模型.
从中国对翻译的传统要求 "信达雅" 三点上看, 翻译模型体现了信与达, 而雅则在语言模型中得到反映.
以下来介绍简单实现翻译模型与语言模型.
翻译模型之EM算法
利用EM算法来解决词语对齐及翻译概率表.
平行文本为:
I laugh 我 笑
laugh loudly 大声地 笑
英语词汇表 x : { I, laugh, loudly }
中文词汇表 y : { 我, 笑, 大声地 }
词汇间可以用 表示 翻译为 的概率.
例如: = P( 我 | I ) = 1/3.
对于
I laugh 我 笑
laugh loudly 大声地 笑
有 2 种对齐方式: 顺序 ( I 对应 我, laugh 对应 笑 ), 反序 ( I 对应 笑, laugh 对应 我 ).
P( 顺序, 我 笑 | I laugh ) = P( 我 | I ) P( 笑 | laugh ) = 1/3 * 1/3 = 1/9
P( 反序, 我 笑 | I laugh ) = P( 笑 | I ) P( 我 | laugh ) = 1/3 * 1/3 = 1/9
规则化后,
P( 顺序, 我 笑 | I laugh ) = 1/2
P( 反序, 我 笑 | I laugh ) = 1/2
P( 顺序, 大声地 笑 | laugh loudly ) = 1/2
P( 反序, 大声地 笑 | laugh loudly ) = 1/2
重新计算词汇对译概率
重新计算各句对顺序反序概率
P( 顺序, 我 笑 | I laugh ) = P( 我 | I ) P( 笑 | laugh ) = 1/2 * 1/2 = 1/4
P( 反序, 我 笑 | I laugh ) = P( 笑 | I ) P( 我 | laugh ) = 1/2 * 1/4 = 1/8
P( 顺序, 大声地 笑 | laugh loudly ) = 1/8
P( 反序, 大声地 笑 | laugh loudly ) = 1/4
规则化后,
P( 顺序, 我 笑 | I laugh ) = 2/3
P( 反序, 我 笑 | I laugh ) = 1/3
P( 顺序, 大声地 笑 | laugh loudly ) = 1/3
P( 反序, 大声地 笑 | laugh loudly ) = 2/3
将此过程反复迭代, 最终收敛. 可以得知 第一个句子对更倾向于顺序对齐, 第二个句子对更倾向于反序对齐.