ROUGE 指标 (Recall-Oriented Understudy for Gisting Evaluation)

开发者每周简报

已于 2024-11-03 23:33:34 修改

阅读量617

点赞数 8

文章标签：人工智能 chatgpt Claude ROUGE

于 2024-11-03 23:30:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Niki2020_2017/article/details/143473140

版权

想象一下你在读一个故事，然后你把这个故事讲给你的朋友听。ROUGE 就是一种方法，用来检查你讲的故事和原版故事有多接近。它可以帮助我们看看你是否记住了原故事中的重要词语或句子。

在计算机科学中，当机器试图总结一段长文本时，人们会用 ROUGE 来检查它的总结是否与人类总结的相似。这就像一个“你记住了多少重点”的分数。ROUGE 分数越高，机器的总结就越接近人类写的总结！

ROUGE（面向召回的摘要评估代理）是一组常用的评价指标，主要用于评估自动文本摘要和机器翻译的质量。它通过比较候选文本（由AI模型生成的文本）与参考文本（人类撰写的文本）之间的 n 元组（n-grams）、序列和最长公共子序列（LCS）的重叠程度来衡量生成的文本与参考文本的相似性。

ROUGE 的主要变体

ROUGE-N：测量候选文本和参考文本之间 n 元组（通常是一元或二元组）的重叠。ROUGE-1（一元组）通常与关键词的出现相关，而 ROUGE-2（二元组）可以提供基础短语结构的信息。
ROUGE-L：关注文本之间的最长公共子序列（LCS）。这种变体可以捕捉到不需要严格位置对齐的序列相似性，从而能够反映超出 n 元组的短语级连贯性。
ROUGE-W：加权最长公共子序列（weighted LCS），对连续匹配给予更高的权重，因此更加注重连续短语的价值。
ROUGE-S：测量跳跃二元组（skip-bigram）的重叠，即在候选文本中具有一定距离的词对的匹配关系，可以捕捉到非连续但相关的词语关系。

ROUGE 的使用方法

ROUGE 分数通常以查准率、召回率和 F1 分数计算：

召回率（Recall）：生成文本中包含参考文本内容的比例。
查准率（Precision）：参考文本中包含生成文本内容的比例。
F1 分数：查准率和召回率的调和平均，平衡两者。

假设我们有一段参考文本（人类写的摘要）和一段候选文本（机器生成的摘要），我们可以计算 ROUGE-1 和 ROUGE-2 来看看两者在一元词组和二元词组上的相似程度。

例子

参考文本：我喜欢吃苹果和香蕉
候选文本：我喜欢苹果和橙子

1. 计算 ROUGE-1

ROUGE-1 是基于一元词组（单个词）的重叠度。我们先提取出两个文本中的一元词组：

参考文本一元词组：[我, 喜欢, 吃, 苹果, 和, 香蕉]
候选文本一元词组：[我, 喜欢, 苹果, 和, 橙子]

计算一元词组的重叠：

重叠词组为：[我, 喜欢, 苹果, 和]
候选文本一元词组总数：5
参考文本一元词组总数：6
重叠数量：4

然后计算 ROUGE-1 的 召回率、查准率 和 F1 分数：

召回率 (Recall) = 重叠数量 / 参考文本一元词组总数 = 4 / 6 ≈ 0.67
查准率 (Precision) = 重叠数量 / 候选文本一元词组总数 = 4 / 5 = 0.8
F1 分数 = 2 * (查准率 * 召回率) / (查准率 + 召回率) ≈ 0.73

所以，ROUGE-1 的结果为：

召回率: 0.67
查准率: 0.8
F1 分数: 0.73

2. 计算 ROUGE-2

ROUGE-2 是基于二元词组（相邻的两个词）的重叠度。我们再提取出两个文本中的二元词组：

参考文本二元词组：[我喜欢, 喜欢吃, 吃苹果, 苹果和, 和香蕉]
候选文本二元词组：[我喜欢, 喜欢苹果, 苹果和, 和橙子]

计算二元词组的重叠：

重叠词组为：[我喜欢, 苹果和]
候选文本二元词组总数：4
参考文本二元词组总数：5
重叠数量：2

然后计算 ROUGE-2 的 召回率、查准率 和 F1 分数：

召回率 (Recall) = 重叠数量 / 参考文本二元词组总数 = 2 / 5 = 0.4
查准率 (Precision) = 重叠数量 / 候选文本二元词组总数 = 2 / 4 = 0.5
F1 分数 = 2 * (查准率 * 召回率) / (查准率 + 召回率) = 0.44

所以，ROUGE-2 的结果为：

召回率: 0.4
查准率: 0.5
F1 分数: 0.44

总结

在这个例子中，ROUGE-1 和 ROUGE-2 的结果分别为：

ROUGE-1: 召回率 0.67，查准率 0.8，F1 分数 0.73
ROUGE-2: 召回率 0.4，查准率 0.5，F1 分数 0.44

通过 ROUGE，我们可以看到候选文本和参考文本的相似性程度。ROUGE 得分越高，说明机器生成的摘要和人类摘要越相似。

ROUGE 广泛用于自然语言处理（NLP）中涉及文本生成的任务，因为它提供了一种快速且简单的基准测试方法。然而，它也存在一些局限性，比如对词汇变化的敏感性以及无法准确衡量语义等价性。

开发者每周简报

博客等级

码龄3年

94
原创

1043
点赞

619
收藏

685
粉丝

关注

私信

热门文章

分类专栏

科技新闻 5篇
调侃 2篇
技术 1篇

展开全部收起

最新评论

ChatGPT o1与GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的比较
weixin_40725929: ？比较呢
Nvidia 印度 AI 峰会
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
为什么80%的程序员都不快乐
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
《黑神话：悟空》小技巧
开发者每周简报: 第三章中有一个很容易错过的支线任务非常有用。从巨龟身上下来后，沿着海岸线跑，直到看到电龙小 Boss。打败他之后，他会抱怨他的“不朽”身体。回到第二章的地窖神殿。与给你属性升级的 NPC 交谈。记住只选择“交谈”选项，然后他会给你一个关键物品。将这个关键物品还给第三章的龙 NPC。这将解锁一个新的秘密区域。在这个区域，你访问的所有升级 NPC 都会在这里。现在无需跑到多个区域。你可以随时在库存菜单中访问此区域。你还可以解锁铁匠 NPC 进行新制作，但最重要的是，你可以用你喜欢的奖励升级旧装备。在早期非常有用！
《黑神话：悟空》小技巧
开发者每周简报: 另一个提示。与 Boss 战斗时不要向后躲避，向侧面躲避

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。