Precision, Recall, BLEU and ROUGE

最新推荐文章于 2024-08-19 20:02:52 发布

haroldLiu001

最新推荐文章于 2024-08-19 20:02:52 发布

阅读量434

收藏

点赞数 1

文章标签： nlp 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42961017/article/details/124765753

版权

1. Precision和Recall的定义如下

Precision = TP / (TP + FP)

Recall = TP / (TP + FN)

可以简单理解为，

Precision = (预测为正并且真正为正的样本个数) / (所有预测为正的样本个数) ;

Recall= (预测为正并且真正为正的样本个数) / (所有真正为正的样本个数)；

2. BLEU and Rouge

例如：

Candidate:

I will leave Beijing next Friday , Alex .

Reference_1:

I will leave Beijing for home next Friday .

2.1 BLEU

在这里我们暂时先考虑n_gram为1的情况，并且为了便于理解，不考虑标点符号。对BLEU来讲，采用的是precision的标准，预测为正并且真正为正的词（token）如下标注, 标注格式为（candidate || reference_1）。

I will leave Beijing next Friday , Alex . || I will leave Beijing for home next Friday .

共有6个词。

所有预测为正的样本个数为

I will leave Beijing next Friday , Alex . || I will leave Beijing for home next Friday .

共有7个词，因此Precision = 6 / 7, 记录为P1。

2.2 ROUGE

ROUGE是基于recall的计算方式，预测为正并且真正为正的词（token）和bleu中标注的相同，也为6个。

所有真正为正的样本个数为

I will leave Beijing next Friday , Alex . || I will leave Beijing for home next Friday . 共有8个。

因此 Recall = 6 / 8，记录为R1。

2.3 n-gram

在上面的描述中，我们只考虑了n-gram为1的情况，在实践中，我们往往考虑多个n-gram的情况，并对结果进行加权变换。例如对bleu，我们往往取到1-gram到4-gram的所有结果，(P1, P2, P3, P4)，对应的权重为 (w1, w2, w3, w4), 从而得到bleu的公式为：

BLEU = exp(w1*logP1 + w2*logP2 + w3*logP3 + w4*logP4)

对bleu来讲，还要面对另外一个问题，那就是句子翻译较短时，precision的分数有可能更高，甚至为1，例如结果为 “I will leave Beijing” 时, P1=1（简单以P1举例说明，P2/P3/P4类似）, 所以bleu的计算方式其实使句子更短的结果得分更高。因此可以考虑在bleu的分数前，加上一个系数，比较合理的分析是，这个系数在candidate句子较短时小于1以降低分数，在candidate句子大于一定长度时，截止到一个常数（比如1）。

因此完整的bleu可以表示为：

BLEU= alpha * exp(w1*logP1 + w2*logP2 + w3*logP3 + w4*logP4)，其中

alpha = 1 if c > r else exp(1- r/c), 其中 r = len(reference), c = len(candidate)

2.4 multi-references

单参考为常见的情况，但为了更真实的反映句子的效果，也会采用多参考的情况。

例如

I will leave Beijing next Friday , Alex . ||

( reference1: I will leave Beijing for home next Friday .

Reference2: I am going to leave for home next Friday, Alex)

则此时 P1 = 1. 即所有预测出来的单个词都正确了。

2.5 ROUGE-N 和 ROUGE-L

ROUGE处理常见的采用n-gram统计外，还有一种基于最长公共子串的统计方式（LCS）。

计算方式可参考ROUGE评价算法学习_Silience_Probe的博客-CSDN博客_rouge计算

3. ROUGE和BLEU的使用场景

这两个都可以用在机器翻译和文本摘要的评价中，其中BLEU在机器翻译中常用，更关心precision，ROUGE在文本摘要中更常用，更关心recall。

haroldLiu001

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值