Statistical Phrase-Based Translation_2003_Koehn【SMT】

最新推荐文章于 2021-12-15 20:45:04 发布

阿.荣.

最新推荐文章于 2021-12-15 20:45:04 发布

阅读量229

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/bmicnj/article/details/108227801

版权

该文提出了一种新的短语统计翻译模型和解码算法，通过实验对比了三种短语提取方法，证明了基于词对齐的学习方法在性能上表现最佳。在解码器中采用了beam search策略，并指出短语长度为3时即可获得良好精度。句法分析虽然能减少短语数量，但未提升系统性能。

摘要由CSDN通过智能技术生成

论文信息

论文	Statistical Phrase-Based Translation
作者	Philipp Koehn, Franz Josef Och, Daniel Marcu
来源	未知
年份	2003
分类	【SMT】

这是基于短语的统计翻译模型的一篇经典文章，也是清华大学NMT列出的十大必读文章之一。

本文提出一个新的基于短语的翻译模型和解码算法，可以评估和比较以前提出的基于短语的翻译模型。通过实验证明通过两种方法可以提升性能：对基于词语的对齐学习启发式的短语翻译、短语翻译的词汇加权。学习短语的长度为3时就可以达到很好的精确度。仅仅学习基于句法的短语会降低系统的性能。

为了比较不同的短语提取方法，文中先提出了一个统一的框架：适用于任意phrase translation table的短语翻译模型和解码器。

这个短语翻译模型基于噪声信道模型。用贝叶斯规则定义翻译概率，将外语翻译 f 为英语 e 。
在这里插入图片描述
在解码时，一个外语句子 f 会被分为 $I$ 个片段 $\overline{f}_{1}^{I}$ ，假设这些片段时均匀分布的。

每一个外语片段会被翻译为一个英语片段，这些英语片段可能时重新排序的，短语的翻译概率分布记为

关注

专栏目录