引言
在深度学习中,我们需要一个损失函数来判断预测结果与实际结果的差别,本文介绍在机器翻译过程中所使用的损失函数——BLEU(Bilingual Evaluation Understudy)最先是用于评估机器翻译的结果, 但现在它已经被广泛用于测量许多应用的输出序列的质量。 原则上说,对于预测序列中的任意n元语法(n-grams), BLEU的评估都是这个n元语法是否出现在标签序列中。
定义
以下为BLEU的公式定义,我们用它进行结果评估。
解释
首先对公式进行解释说明,表示标签序列中的词元数和表示预测序列中的词元数, k是用于匹配的最长的n元语法。 另外,用表示n元语法的精确度,它是两个数量的比值: 第一个是预测序列与标签序列中匹配的n元语法的数量, 第二个是预测序列中n元语法的数量的比率。
连乘部分
公式比较复杂,首先看右边的连乘部分。我们假设实际序列为A,B,C,D,E,F。输出序列为A,B,B,C,D。此时最长的n元语法为5,k=5,对n=1~n=5依次来看,n=1时,即1元语法,有四个一元语法匹配,分别是A,B,C,D,所以p1=4/5。n=2时,有四个二元语法,其中三个匹配,分别为AB,BC,CD,所以p2=3/4。类似,p3=1/3,p4=p5=0。
对五个n,指数分别为1/2,1/4,1/16,1/32。这样设计主要是由于n越大,满足难度越大,重要性越小,所以权重越小。
exp部分
若预测词元少于实际词元,则指数为0,若预测词元大于实际词元,则指数大于零(一般情况下总体差距不大,值近似为0)。在预测词元数量远远大于实际词元时,指数较大,但最大不超过e。
预测值
假设实际序列与预测序列完全相同,如ABCDE,此时exp的值为1。其他任何情况下均小于1。当预测的值完全驴唇不对马嘴时,值为0。