[ THUNLP-MT (4/10) ] Minimum Error Rate Training in Statistical Machine Translation | 最小错误率训练 + SMT

最新推荐文章于 2019-08-11 22:47:42 发布

只眷恋两小无猜

最新推荐文章于 2019-08-11 22:47:42 发布

阅读量462

点赞数 1

分类专栏： NLP 文章标签： THUNLP_10

本文链接：https://blog.csdn.net/qq_33387068/article/details/89812202

版权

NLP 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文介绍最小错误率训练方法，主要是笔者对于论文的理解，希望对你有帮助。
该论文是THUNLP-MT推荐的机器翻译领域必读的十篇论文之一。论文传送门
全文共分为论文内容和本文小结两部分。若有错误的地方，欢迎指出！

论文内容

作者Och Josef在2003年提出了在当时统计机器翻译模型的问题：由于训练时多使用最大似然估计的方法，测试集上模型的输出往往没有较好的翻译质量。也因此，作者提出了根据任务需求的不同评价指标，以及一个根据翻译质量来训练模型的方法。

统计机器翻译之 log-linear模型

使用log-linear模型对数据的后验概率建模。公式如下，其中：有 $M$ 个特征， $λ_m$ 是参数， $h_m$ 是特征函数。通常特征函数的输出值都是0或者1。

$p_{λ_m^1} (\bf{e} | \bf{f} )= \frac{exp[ \sum_{m=1}^m λ_m h_m ( \bf{e} , \bf{f} ) ]}{\sum_{e{\prime}_1^I} exp[ \sum_{m=1}^M λ_m h_m ( e{\prime}_1^I , \bf{f} ) ]}$

自动评测指标

multi-reference word error rate (mWER)
顾名思义，衡量的是输出翻译句子与多个参考的译文的错误率。使用Levenshtein distance 来作为衡量句子间距离的标准。
multi-reference position independent error rate (mPER)
即无视句子中词语的出现顺序。
BLEU (bilingual evaluation understudy) score
BLEU 分数的计算方式如下(1)式所示。其中， $c$ 表示系统译文， $c^{'}$ 表示参考译文，N表示n-gram中的n， $p_n$ 代表某个n-gram组成的集合在所有候选翻译句子中的出现概率， $BP(\cdot)$ 则是长度惩罚系数。
.
$Count_{clip}$ 表示的是每个单词在所有参考译文中的出现次数的最大值（在下式中用maxReferenceCount表示），以及单词在模型输出译文中的出现次数，两个值中的最小值。这样子做是为了保证模型输出译文中每个单词的个数，不超过该单词在所有参考译文中出现次数的最大值。

$\text{BLEU} = BP(\cdot)\cdot exp ( \sum_{n=1}^N \frac{ log p_n}{N} ) \tag1$

$p_n = \frac{ \sum_{c∈Candidate} \sum_{n-gram∈c} Count_{clip}(n-gram) } { \sum_{c^{'}∈Candidate} \sum_{n-gram^{'}∈c^{'}} Count(n-gram) } \tag2$

$Count_{clip} = min( count, maxReferenceCount ) \tag3$

NIST score
NIST score是上面BLEU score的变种。主要修改了n-gram的权重计算方式，以及长度惩罚系数。（此处先不展开，有兴趣可以先看宗老师的书）

$\text{NIST} = BP(\cdot)\cdot exp ( \sum_{n=1}^n { w_n} )$

最小错误率的训练目标

公式如下，训练的目标是得到包含最小的错误个数的句子。其中， $C_s$ 表示候选模型输出句子，并且 $C_s|=K$ ，S则表示候选参考翻译句子的个数。(1)式中第一行 $\bf{r_s}$ 表示候选的参考翻译句子， $\bf{\hat{e}}$ 表示当前参数下的最优翻译句子，由(2)式中的最大值得到。(1)式中第二行， $\delta$ 是Kronecker函数，即若 $\hat{e} (f_s;λ_1^m)和e_{s,k}$ 两个字符串相等，则函数取值为1，否则为零。此处也表示的是在计算错误率时，只包括了K个候选句子中的拥有最大得分的句子。

$\begin{aligned} \hat{λ_1^m} &= \underset{λ_1^m}{\operatorname{ argmin}} \{ \sum_{s=1}^S E(\bf{r_s}, \hat{e}(f_s; λ_1^m) ) \} \\ &= \underset{λ_1^m}{\operatorname{argmin}}\sum_{s=1}^S\sum_{k=1}^K E(\bf{r_s}, e_{s,k} ) \delta ( \hat{e}(f_s; λ_1^m),e_{s,k} )\} \tag1 \end{aligned}$

$\hat{e}(f_s; λ_1^m)= \underset{e \in C_s}{\operatorname{ argmax}} \{ \sum_{m=1}^M {\lambda}_m h_m(\bf{e}|\bf{f_s})\} \tag2$

特别的，由于(2)式中的最大化操作，和函数有很多局部最优点所导致优化目标不好处理，论文中也提到(1)式的平滑版本。

论文结论

该论文提出了log-linear模型在统计机器翻译模型中的两个新的优化目标：平滑的错误个数，不平滑的错误个数。并且对于不平滑的错误个数，该论文也提出了优化方法。经过试验该优化目标比MMI优化目标更能得到高质量的翻译结果。最后，作者也提出了两方面问题：

若使用不平滑的最小错误率当做训练目标，多少参数能被有效地估计？经过平滑之后的变种最小错误率训练目标，是否能估计更多的参数？
哪一个自动评测指标更代表了人类的评测结果？
- 现在多数的机器翻译评测都是使用BLEU评价指标。

本文小结

最小错误率训练目标的方法的提出时间较早，除了在统计机器学习上被使用，由于其能根据翻译评价指标来衡量模型的输出句子，在现今的神经机器翻译模型中也常被使用来重新排序模型输出的n-best列表。

此外，最小错误率训练目标也有进一步的研究工作，如下：

另一方面，如果想要实践，可以尝试统计机器翻译开源工具Moses。

参考资料

Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of ACL 2003. (Citation: 2,982)
宗成庆《统计自然语言处理》
BLEU: a Method for Automatic Evaluation of Machine Translation
最小错误率训练(mert)基本原理学习战辉
最小错误率训练 warrioR_wx
Discriminative Training and Maximum Entropy Models for Statistical Machine Translation 2002 [该篇论文的先前工作]

只眷恋两小无猜

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
[ THUNLP-MT (4/10) ] Minimum Error Rate Training in Statistical Machine Translation | 最小错误率训练 + SMT

本文介绍最小错误率训练方法，主要是笔者对于论文的理解，希望对你有帮助。该论文是THUNLP-MT推荐的机器翻译领域必读的十篇论文之一。
复制链接

扫一扫