机器学习笔记：预测序列的评估

一个用户aaa

于 2024-08-11 10:52:41 发布

阅读量270

点赞数 4

文章标签：机器学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79335566/article/details/141096006

版权

引言

在深度学习中，我们需要一个损失函数来判断预测结果与实际结果的差别，本文介绍在机器翻译过程中所使用的损失函数——BLEU（Bilingual Evaluation Understudy）最先是用于评估机器翻译的结果，但现在它已经被广泛用于测量许多应用的输出序列的质量。原则上说，对于预测序列中的任意n元语法（n-grams）， BLEU的评估都是这个n元语法是否出现在标签序列中。

定义

以下为BLEU的公式定义，我们用它进行结果评估。

$f=e^{Min(0,1-\frac{len_{label}}{len_{pred}})}\prod_{n=1}^{k}p_n^{\frac{1}{2^n}}$

解释

首先对公式进行解释说明， $len_{label}$ 表示标签序列中的词元数和 $len_{pred}$ 表示预测序列中的词元数， k是用于匹配的最长的n元语法。另外，用 $p_n$ 表示n元语法的精确度，它是两个数量的比值：第一个是预测序列与标签序列中匹配的n元语法的数量，第二个是预测序列中n元语法的数量的比率。

连乘部分

公式比较复杂，首先看右边的连乘部分。我们假设实际序列为A，B，C，D，E，F。输出序列为A，B，B，C，D。此时最长的n元语法为5，k=5，对n=1~n=5依次来看，n=1时，即1元语法，有四个一元语法匹配，分别是A，B，C，D，所以p1=4/5。n=2时，有四个二元语法，其中三个匹配，分别为AB，BC，CD，所以p2=3/4。类似，p3=1/3，p4=p5=0。

对五个n，指数分别为1/2，1/4，1/16，1/32。这样设计主要是由于n越大，满足难度越大，重要性越小，所以权重越小。

exp部分

若预测词元少于实际词元，则指数为0，若预测词元大于实际词元，则指数大于零（一般情况下总体差距不大，值近似为0）。在预测词元数量远远大于实际词元时，指数较大，但最大不超过e。

预测值

假设实际序列与预测序列完全相同，如ABCDE，此时exp的值为1。其他任何情况下均小于1。当预测的值完全驴唇不对马嘴时，值为0。

一个用户aaa

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记：预测序列的评估

以下为BLEU的公式定义，我们用它进行结果评估。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。