xx

最新推荐文章于 2021-05-08 13:41:32 发布

mongoose

最新推荐文章于 2021-05-08 13:41:32 发布

阅读量700

点赞数

分类专栏：机器翻译文章标签：机器翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/omongoose/article/details/10265565

版权

机器翻译专栏收录该内容

1 篇文章 0 订阅

订阅专栏

记录学习中的点滴.

英->汉, 有英汉平行文本.

噪声信道模型: 噪声心道模型假定, 源语言中的句子 $f$ 是由目标语言中的句子 $e$ 经过含有噪声的信道编码后得到的. 那么, 如果已知了 $f$ 和信道的性质, 我们可以得到 $e$ 产生 $f$ 的概率, 即 $p(e|f)$ . 而寻找最佳的翻译结果 $\widetilde{e}$ 也就等同于寻找:

$\widetilde{e} = arg\max_{e \epsilon e^*} p(e|f)$

利用贝叶斯公式, 上式等于

$\widetilde{e} = arg\max_{e \epsilon e^*} p(e|f) = arg\max_{e \epsilon e^*} \frac{ p(f|e)p(e) }{ p(f) }$

以文字来描述词公式, $f$ : 英文, $e$ : 中文.

$p(e|f)$ : 英文句子 $f$ 翻译为中文句子 $e$ 的概率.

$p(f|e)$ : 中文句子 $e$ 翻译为英文句子 $f$ 的概率.

$p(e)$ : $e$ 为表达合理的中文句子的概率.

$p(f)$ : $f$ 为表达合理的英文句子的概率.

对于给定的句子的英文句子 $f$ 来说 $p(f)$ 为常量, 上式等同于

$arg\max_{e \epsilon e^*} \frac{ p(f|e)p(e) }{ p(f) } = arg\max_{e \epsilon e^*} p(f|e)p(e)$

由此, 我们得到了两部分概率:

1, $p(f|e)$ , 在此称为翻译模型.

2, $p(e)$ , 在此称为语言模型.

从中国对翻译的传统要求 "信达雅" 三点上看, 翻译模型体现了信与达, 而雅则在语言模型中得到反映.

以下来介绍简单实现翻译模型与语言模型.

翻译模型之EM算法

利用EM算法来解决词语对齐及翻译概率表.

平行文本为:

I laugh 我笑

laugh loudly 大声地笑

英语词汇表 x : { I, laugh, loudly }

中文词汇表 y : { 我, 笑, 大声地 }

词汇间可以用 $p(y_j|x_i)$ 表示 $y_j$ 翻译为 $x_i$ 的概率.

例如: $p(y_1|x_1)$ = P( 我 | I ) = 1/3.

$p(y_i|x_j) = \begin{pmatrix} \frac{1}{3} & \frac{1}{3} & \frac{1}{3}\\ \frac{1}{3} & \frac{1}{3} & \frac{1}{3}\\ \frac{1}{3} & \frac{1}{3} & \frac{1}{3} \end{pmatrix}$

对于

I laugh 我笑

laugh loudly 大声地笑

有 2 种对齐方式: 顺序 ( I 对应我, laugh 对应笑 ), 反序 ( I 对应笑, laugh 对应我 ).

P( 顺序, 我笑 | I laugh ) = P( 我 | I ) P( 笑 | laugh ) = 1/3 * 1/3 = 1/9

P( 反序, 我笑 | I laugh ) = P( 笑 | I ) P( 我 | laugh ) = 1/3 * 1/3 = 1/9

规则化后,

P( 顺序, 我笑 | I laugh ) = 1/2

P( 反序, 我笑 | I laugh ) = 1/2

P( 顺序, 大声地笑 | laugh loudly ) = 1/2

P( 反序, 大声地笑 | laugh loudly ) = 1/2

重新计算词汇对译概率

$p(y_i|x_j) = \begin{pmatrix} \frac{1}{2} & \frac{1}{2} & 0\\ \frac{1}{4} & \frac{1}{2} & \frac{1}{4}\\ 0 & \frac{1}{2} & \frac{1}{2} \end{pmatrix}$

重新计算各句对顺序反序概率

P( 顺序, 我笑 | I laugh ) = P( 我 | I ) P( 笑 | laugh ) = 1/2 * 1/2 = 1/4

P( 反序, 我笑 | I laugh ) = P( 笑 | I ) P( 我 | laugh ) = 1/2 * 1/4 = 1/8

P( 顺序, 大声地笑 | laugh loudly ) = 1/8

P( 反序, 大声地笑 | laugh loudly ) = 1/4

规则化后,

P( 顺序, 我笑 | I laugh ) = 2/3

P( 反序, 我笑 | I laugh ) = 1/3

P( 顺序, 大声地笑 | laugh loudly ) = 1/3

P( 反序, 大声地笑 | laugh loudly ) = 2/3

将此过程反复迭代, 最终收敛. 可以得知第一个句子对更倾向于顺序对齐, 第二个句子对更倾向于反序对齐.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。