ROUGE-W计算逻辑

原论文 https://aclanthology.org/W04-1013.pdf

论文的中文翻译:

LLM - 大模型评估指标之 ROUGE_rouge 大模型-CSDN博客

一、ROUGE-W 定义

ROUGE-W 代表 Weighted Longest Common Subsequence 即加权最长公共子序列。所以 ROGUE-W 的 W 就是给与连续的匹配更多地权重,从而在 LCS 相同的情况下,连贯性更好的输出可以获得更高的分数。

二、ROUGE-W计算逻辑示例

论文内其他计算逻辑,如ROUGE-N,ROUGE-L,ROUGE-S相对比较好看懂,但的ROUGE-W示例代码比较复杂,看了许多遍,也没有看懂Wlsc、f(x)、f-1(x)的计算逻辑,且网上相关详细逻辑很少,有的也有错误,看的很混乱。

经过多番参考网络内各种文章,和对原论文的计算结果验证,ROUGE-W的完整计算逻辑如下:

给定候选 X 与输出 Y1、Y2 如果按照 ROUGE-L 计算得到的分数是相同的,但是从句子通顺的角度上看 Y1 是优于 Y2 的,因为 Y1 更加连贯。所以 ROGUE-W 的 W 就是给与连续的匹配更多地权重,从而在 LCS 相同的情况下,连贯性更好的输出可以获得更高的分数。ROUGE-W 的计算公式如下:

设置f(x)函数,和对应的逆函数如下:

两个集合,参考文档X,机器翻译输出文档Y内,WLCS(X,Y)=f(4)=4^2,即等于,累加所有(按顺序,相同且连续字符的个数,用f(x)函数计算的结果)。回到前面需要比较的语句示例X,Y1,Y2,其中X和Y1的相同字符个数=4(ABCD四个字符),最长相同字符长度=4(ABCD字符串),则WLCS(X,Y1)=4^2=16.

同理,WLCS(X,Y2)=1^2+1^2+1^2+1^2=4.

f(m)=7^2=49, f(m)表示参考集X的字符个数的平方

fy1(n)=7^2=49, fy1(n)表示参考集Y1的字符个数的平方

fy2(n)=7^2=49, fy2(n)表示参考集Y2的字符个数的平方

因为X,Y1,Y2都是7个字符,所以上面三个值相等。

Rwlcs-y1=(16/49)^1/2=4/7=0.571,对应上文公式-13

Pwlcs-y1=(16/49)^1/2=4/7=0.571,对应上文公式-14

因为Rwlcs-y1=Pwlcs-y1,则Fwlcs-y1计算后,β参数会被约掉,Fwlcs-y1=Rwlcs-y1或者Fwlcs-y1=0.571,对应上文公式-15

同理,Fwlcs-y2=0.286。计算结果与原始论文内值一致。

三、论文代码解析(长段文字计算)

备注:个人理解和计算推测(目前似乎只有pyrouge有rouge-w的计算结果,但pyrouge安装和使用较麻烦,未验证)。

论文的计算代码逻辑如上所示。

第二章接的示例内,X1和Y1,Y2只有ABCD四个字符一致。如果有更多字符相识怎么计算呢:

如X1=[A B C D E F G H I]

Y1=[A B C N F G H I]

Y2=[A N C D F G H I]

其中X1,Y1内按顺序,且共同子序列,有[A B C],[F G H I]。

X1,Y2内有按顺序,且共同子序列,有[A],[C D],[F G H I]。

这种情况下,计算出的Wwlcs-y1=3^2+4^2,Wwlcs-y2=1^2+2^2+4^2。即等于,累加(按顺序,相同且连续字符的个数,用f(x)函数计算的结果,本文选取f(x)=x的平方)。

如果:

X1=[A B C D E F G H I ]

Y1=[A B C N F G H I A]

此时Y1内的第二个A因为并未与X1内的字符排序相同,Y1内的第二个A会被忽略。

如下论文内,也有rouge-w的例子,但是有微微错误,ROUGE-W(C2)=0.314,实际是C1优于C2

“重磅!” 常见的NLG评估方法大整理 !! - 知乎

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值