机器学习笔记:预测序列的评估

引言

在深度学习中,我们需要一个损失函数来判断预测结果与实际结果的差别,本文介绍在机器翻译过程中所使用的损失函数——BLEU(Bilingual Evaluation Understudy)最先是用于评估机器翻译的结果, 但现在它已经被广泛用于测量许多应用的输出序列的质量。 原则上说,对于预测序列中的任意n元语法(n-grams), BLEU的评估都是这个n元语法是否出现在标签序列中。

定义

以下为BLEU的公式定义,我们用它进行结果评估。

                ​​​​​​​        ​​​​​​​        ​​​​​​​                f=e^{Min(0,1-\frac{len_{label}}{len_{pred}})}\prod_{n=1}^{k}p_n^{\frac{1}{2^n}}

解释

首先对公式进行解释说明,len_{label}表示标签序列中的词元数和len_{pred}表示预测序列中的词元数, k是用于匹配的最长的n元语法。 另外,用p_n表示n元语法的精确度,它是两个数量的比值: 第一个是预测序列与标签序列中匹配的n元语法的数量, 第二个是预测序列中n元语法的数量的比率。 

连乘部分

公式比较复杂,首先看右边的连乘部分。我们假设实际序列为A,B,C,D,E,F。输出序列为A,B,B,C,D。此时最长的n元语法为5,k=5,对n=1~n=5依次来看,n=1时,即1元语法,有四个一元语法匹配,分别是A,B,C,D,所以p1=4/5。n=2时,有四个二元语法,其中三个匹配,分别为AB,BC,CD,所以p2=3/4。类似,p3=1/3,p4=p5=0。

对五个n,指数分别为1/2,1/4,1/16,1/32。这样设计主要是由于n越大,满足难度越大,重要性越小,所以权重越小。

exp部分

若预测词元少于实际词元,则指数为0,若预测词元大于实际词元,则指数大于零(一般情况下总体差距不大,值近似为0)。在预测词元数量远远大于实际词元时,指数较大,但最大不超过e。

预测值

假设实际序列与预测序列完全相同,如ABCDE,此时exp的值为1。其他任何情况下均小于1。当预测的值完全驴唇不对马嘴时,值为0。

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值