论文笔记文章目录
论文信息
论文 | Statistical Phrase-Based Translation |
---|---|
作者 | Philipp Koehn, Franz Josef Och, Daniel Marcu |
来源 | 未知 |
年份 | 2003 |
分类 | 【SMT】 |
这是基于短语的统计翻译模型的一篇经典文章,也是清华大学NMT列出的十大必读文章之一。
摘要
本文提出一个新的基于短语的翻译模型和解码算法,可以评估和比较以前提出的基于短语的翻译模型。通过实验证明通过两种方法可以提升性能:对基于词语的对齐学习启发式的短语翻译、短语翻译的词汇加权。学习短语的长度为3时就可以达到很好的精确度。仅仅学习基于句法的短语会降低系统的性能。
模型与方法思想
模型
为了比较不同的短语提取方法,文中先提出了一个统一的框架:适用于任意phrase translation table的短语翻译模型和解码器。
短语翻译模型
这个短语翻译模型基于噪声信道模型。用贝叶斯规则定义翻译概率,将外语翻译 f 为英语 e 。
在解码时,一个外语句子 f 会被分为 I I I个片段 f ‾ 1 I \overline{f}_{1}^{I} f1I,假设这些片段时均匀分布的。
每一个外语片段会被翻译为一个英语片段,这些英语片段可能时重新排序的,短语的翻译概率分布记为 ϕ