ROUGE: A Package for Automatic Evaluation of Summaries

ROUGE: A Package for Automatic Evaluation of Summaries

原文地址

时间:2004

Intro

ROUGE的衡量方向是candidate相对reference的recall值

ROUGE-N: N-gram Co-Occurrence Statistics

在这里插入图片描述
其中n是n-gram的长度, C o u n t m a t c h ( g r a m n ) Count_{match}(gram_n) Countmatch(gramn)是n-gram同时出现在candidate和reference中的最大次数,ROUGE-N之所以是recall-related,是因为分母是所有出现在reference中的n-gram总数,而不是出现在candidate中的,注意两个点

  • 加入reference summaries时,分母会变大,这是合理的因为可能有多个不同的candidate??
  • 分子是在所有reference summaries上计算的,因此出现在多个reference summary中的n-gram权值会更大,这是合理的,因为这样的candidate与reference的consensus更相似

当一个candidate对多个reference的时候,ROUGE-N计算candidate与每个reference配对的最大值
在这里插入图片描述
实现中我们使用Jackknifing procedure,对于M个reference,计算每组M-1个reference中的最大ROUGE-N,然后将这M个值加起来取平均

ROUGE-L:Longest Common Subsequence

Z = [ z 1 , z 2 , . . . , z n ] Z=[z_1,z_2,...,z_n] Z=[z1,z2,...,zn] X = [ x 1 , x 2 , . . . , x m ] X=[x_1,x_2,...,x_m] X=[x1,x2,...,xm]的子列,当存在一个严格递增的序列 [ i 1 , i 2 , . . . , i k ] [i_1,i_2,...,i_k] [i1,i2,...,ik],使得对于所有 j j j,有 x i j = z j x_{i_j}=z_j xij=zj,最长子列(Longest common subsequence)LCS就是两个字符序列的最长的公共子列

Sentence-level LCS

用LCS来度量,我们先将summary sentence视作词序列,直观的想法是如果两个summary sentence的LCS越长它们就越相似,对于长m的reference X X X和长n的candidate Y Y Y,我们提出了基于LCS的F度量如下
在这里插入图片描述
其中 β = P l c s / R l c s \beta=P_{lcs}/R_{lcs} β=Plcs/Rlcs,这就是ROUGE-L,当X=Y时ROUGE-L=1,当LCS(X,Y)=0时,ROUGE-L=0

ROUGE-L的优点有两个

  • 不需要连续的词相同,而是子列相同即可
  • 自动求出最大的n-gram而无需预先定义n

对于下面这个例子,ROUGE-L可以捕捉到句子的结构
在这里插入图片描述
S1是reference,S2、S3是candidate,ROUGE-2会给它们打一样的分,因为它们的2-gram词出现的次数一样,但是ROUGE-L则可以发现句子中的主被动关系,给S2打更高的分(…敢和ROUGE-3对比吗)

ROUGE-L的缺点是只计算最长的子列,其他长度的公共序列都与最终评分无关,比如
在这里插入图片描述
ROUGE-L只算这两个长度为2的公共子列中的一个

Summary-Level LCS

在Summary-level中,我们取每句reference sentence r i r_i ri和每句candidate sentence c j c_j cj的LCS并集,给定一个包括u句话总计m个词的reference summary,和包括v句话总计n个词的candidate,summary-level的 ROUGE-L计算如下
在这里插入图片描述在这里插入图片描述
其中 L C S U LCS_U LCSU表示reference r i r_i ri和candidate summary C的最长子列的并集,比如 r i = w 1 w 2 w 3 w 4 w 5 r_i=w_1w_2w_3w_4w_5 ri=w1w2w3w4w5, c 1 = w 1 w 2 w 6 w 7 w 8 c_1=w_1w_2w_6w_7w_8 c1=w1w2w6w7w8, c 2 = w 1 w 3 w 5 c_2=w_1w_3w_5 c2=w1w3w5,则 r i r_i ri c 1 c_1 c1的最长子列是 w 1 w 2 w_1w_2 w1w2,与 c 2 c_2 c2的最长公共子列是 w 1 w 3 w 5 w_1w_3w_5 w1w3w5,则 L C S U ( r i , C ) LCS_U(r_i,C) LCSU(ri,C)就是4

ROUGE-W:Weight Longest Common Subsequence

ROUGE-L有这样的缺点
在这里插入图片描述
在这里插入图片描述
X是reference时,Y1和Y2有一样的ROUGE-L分数,但显然,更连续的Y1应当是更好的选择,为了 改进ROUGE-L,我们引入Weight LCS,为连续的子列打更高的分数,具体方法详见论文

ROUGE-S:Skip-Bigram Co-Occurrence Statistics

skip-bigram是一句话中任意两个有序的词,它们之间可以间隔任意长,基于skip-bigram的ROUGE-S计算如下
在这里插入图片描述
其中C是组合函数,相比与ROUGE-L来说,ROUGE-S能捕捉所有有序的两个词,为了避免匹配一些相隔过长而无意义的词比如"the the",可以设置最长间隔,此时相应的分母也要按照这个最长距离来计算

ROUGE-SU:Extension of ROUGE-S

ROUGE-S的缺点之一就是当skip-bigram不存在时,candidate的得分是0,因此ROUGE-SU在ROUGE-S的基础上,加上了对单个词的考虑

结论

Idea

  • 类似BLEU的n-gram co-occurrence统计方法可以被用来评估生成句的好坏
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值