ROUGE: A Package for Automatic Evaluation of Summaries

最新推荐文章于 2024-06-10 11:28:48 发布

luputo

最新推荐文章于 2024-06-10 11:28:48 发布

阅读量2.2k

点赞数 1

本文链接：https://blog.csdn.net/luo3300612/article/details/90636210

版权

ROUGE: A Package for Automatic Evaluation of Summaries

原文地址

时间：2004

Intro

ROUGE的衡量方向是candidate相对reference的recall值

ROUGE-N: N-gram Co-Occurrence Statistics

在这里插入图片描述
其中n是n-gram的长度， $Count_{match}(gram_n)$ 是n-gram同时出现在candidate和reference中的最大次数，ROUGE-N之所以是recall-related，是因为分母是所有出现在reference中的n-gram总数，而不是出现在candidate中的，注意两个点

加入reference summaries时，分母会变大，这是合理的因为可能有多个不同的candidate？？
分子是在所有reference summaries上计算的，因此出现在多个reference summary中的n-gram权值会更大，这是合理的，因为这样的candidate与reference的consensus更相似

当一个candidate对多个reference的时候，ROUGE-N计算candidate与每个reference配对的最大值
在这里插入图片描述
实现中我们使用Jackknifing procedure，对于M个reference，计算每组M-1个reference中的最大ROUGE-N，然后将这M个值加起来取平均

ROUGE-L:Longest Common Subsequence

$Z=[z_1,z_2,...,z_n]$ 是 $X=[x_1,x_2,...,x_m]$ 的子列，当存在一个严格递增的序列 $i_1,i_2,...,i_k]$ ，使得对于所有 $j$ ，有 $x_{i_j}=z_j$ ，最长子列（Longest common subsequence）LCS就是两个字符序列的最长的公共子列

Sentence-level LCS

用LCS来度量，我们先将summary sentence视作词序列，直观的想法是如果两个summary sentence的LCS越长它们就越相似，对于长m的reference $X$ 和长n的candidate $Y$ ，我们提出了基于LCS的F度量如下
在这里插入图片描述
其中 $\beta=P_{lcs}/R_{lcs}$ ，这就是ROUGE-L，当X=Y时ROUGE-L=1，当LCS(X,Y)=0时，ROUGE-L=0

ROUGE-L的优点有两个

不需要连续的词相同，而是子列相同即可
自动求出最大的n-gram而无需预先定义n

对于下面这个例子，ROUGE-L可以捕捉到句子的结构
在这里插入图片描述
S1是reference，S2、S3是candidate，ROUGE-2会给它们打一样的分，因为它们的2-gram词出现的次数一样，但是ROUGE-L则可以发现句子中的主被动关系，给S2打更高的分（…敢和ROUGE-3对比吗）

ROUGE-L的缺点是只计算最长的子列，其他长度的公共序列都与最终评分无关，比如
在这里插入图片描述
ROUGE-L只算这两个长度为2的公共子列中的一个

Summary-Level LCS

在Summary-level中，我们取每句reference sentence $r_i$ 和每句candidate sentence $c_j$ 的LCS并集，给定一个包括u句话总计m个词的reference summary，和包括v句话总计n个词的candidate，summary-level的 ROUGE-L计算如下
在这里插入图片描述
其中 $LCS_U$ 表示reference $r_i$ 和candidate summary C的最长子列的并集，比如 $r_i=w_1w_2w_3w_4w_5$ , $c_1=w_1w_2w_6w_7w_8$ , $c_2=w_1w_3w_5$ ，则 $r_i$ 和 $c_1$ 的最长子列是 $w_1w_2$ ，与 $c_2$ 的最长公共子列是 $w_1w_3w_5$ ，则 $LCS_U(r_i,C)$ 就是4

ROUGE-W:Weight Longest Common Subsequence

ROUGE-L有这样的缺点
在这里插入图片描述

X是reference时，Y1和Y2有一样的ROUGE-L分数，但显然，更连续的Y1应当是更好的选择，为了改进ROUGE-L，我们引入Weight LCS，为连续的子列打更高的分数，具体方法详见论文

ROUGE-S:Skip-Bigram Co-Occurrence Statistics

skip-bigram是一句话中任意两个有序的词，它们之间可以间隔任意长，基于skip-bigram的ROUGE-S计算如下
在这里插入图片描述
其中C是组合函数，相比与ROUGE-L来说，ROUGE-S能捕捉所有有序的两个词，为了避免匹配一些相隔过长而无意义的词比如"the the"，可以设置最长间隔，此时相应的分母也要按照这个最长距离来计算

ROUGE-SU:Extension of ROUGE-S

ROUGE-S的缺点之一就是当skip-bigram不存在时，candidate的得分是0，因此ROUGE-SU在ROUGE-S的基础上，加上了对单个词的考虑

结论

～

Idea

类似BLEU的n-gram co-occurrence统计方法可以被用来评估生成句的好坏

luputo

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
ROUGE: A Package for Automatic Evaluation of Summaries

ROUGE: A Package for Automatic Evaluation of Summaries原文地址时间：2004
复制链接

扫一扫