Statistical Phrase-Based Translation_2003_Koehn【SMT】

该文提出了一种新的短语统计翻译模型和解码算法,通过实验对比了三种短语提取方法,证明了基于词对齐的学习方法在性能上表现最佳。在解码器中采用了beam search策略,并指出短语长度为3时即可获得良好精度。句法分析虽然能减少短语数量,但未提升系统性能。
摘要由CSDN通过智能技术生成

论文信息


论文 Statistical Phrase-Based Translation
作者 Philipp Koehn, Franz Josef Och, Daniel Marcu
来源 未知
年份 2003
分类 【SMT】

这是基于短语的统计翻译模型的一篇经典文章,也是清华大学NMT列出的十大必读文章之一。


摘要

本文提出一个新的基于短语的翻译模型和解码算法,可以评估和比较以前提出的基于短语的翻译模型。通过实验证明通过两种方法可以提升性能:对基于词语的对齐学习启发式的短语翻译、短语翻译的词汇加权。学习短语的长度为3时就可以达到很好的精确度。仅仅学习基于句法的短语会降低系统的性能。

模型与方法思想

模型

为了比较不同的短语提取方法,文中先提出了一个统一的框架:适用于任意phrase translation table的短语翻译模型和解码器。

短语翻译模型

这个短语翻译模型基于噪声信道模型。用贝叶斯规则定义翻译概率,将外语翻译 f 为英语 e 。
在这里插入图片描述
在解码时,一个外语句子 f 会被分为 I I I个片段 f ‾ 1 I \overline{f}_{1}^{I} f1I,假设这些片段时均匀分布的。

每一个外语片段会被翻译为一个英语片段,这些英语片段可能时重新排序的,短语的翻译概率分布记为 ϕ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值