文章标题生成（HeadLine Generation for News Articles）评测指标Rouge-(1,2,L,S) 和 Meteor

最新推荐文章于 2025-01-17 08:15:00 发布

brith_for_AI

最新推荐文章于 2025-01-17 08:15:00 发布

阅读量2.3k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qq_32782339/article/details/83586153

版权

自然语言处理专栏收录该内容

5 篇文章

订阅专栏

本文探讨自动文摘生成的评价方法，重点介绍Rouge和Meteor指标，包括Rouge-1、Rouge-2、Rouge-N、Rouge-L及其改进版Rouge-W，以及Meteor的计算原理，旨在量化自动生成摘要与参考摘要间的相似度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章标题生成评价指标

摘要：这里是关于自动文摘生成论文中常用的相关评价指标(Rouge and Meteor )的描述.Bleu指标大家比较熟悉，这里不做过多的解释。关于Rouge 是评估自动文摘以及机器翻译的一组指标。它们过将自动生成的摘要或翻译与一组参考摘要（人工生成的）进行比较计算，得出相应的分值，用来衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。Meteor 是2004年由Lavir发现在评价指标中召回率的意义后提出的。

Rouge-1、Rouge-2、Rouge-N

相关文献[1]中对Rouge-N的定义是这样的;

$Rouge_N = \frac{\sum_{S \in \{ ReferenceSummaries \}} \sum_{ {gram}_n \in S } {Count_{match}({gram}_n) } } {\sum_{S\in\{ReferenceSummaries\}}\sum_{{gram}_n \in S}Count(gram_n))}$

分母是n-gram的个数，分子是参考文献摘要和自动摘要共有的n-gram的个数。直接借用一个例子说明：
生成的摘要：

1 the cat was found under the bed

参考摘要：

the cat was under the bed

然后去看一个关于n-gram的分析表格。

$Rouge_1(x_1,Y)=\frac{6}{6}=1.0$ ,分子是待评测摘要都出现的1-gram的个数。，分子是参考摘要的1-gram个数。（其实分母也可以是待评测摘要的，但是在精确率和召回率之间），我们更关心的是召回率Recall, 同时这也和上面ROUGN_N的公式相同，同样， $Rouge_2(X_1,Y)=\frac{4}{5}=0.8$

Rouge-L

L即是LCS最长公共子序列，因为Rough-L使用了最使用了最长公共子序列。Rouge-L计算方式如下：

$R_{lcs}=\frac{LCS(X,Y)}{m}$

$P_{lcs}=\frac{LCS(X,Y)}{n}$

$F_{lcs}=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2P_{lcs}}$

其中 LCS(X,Y) 是X和Y的最长共公子序列的长度，m,n分别表示参考摘要和自动摘要的长度（一般就是所含词的个数）， $R_{lcs},P_{lcs}$ 分别表示召回率和准确率。最后的 $F_{lcs}$ 即是我们说的Rouge-L。在DUC中, $\beta$ 被设置为一个很大的数，所以Rouge_L几乎考虑了 $R_{lcs}$ ,与上文所说的一般只考虑召回率对应。

Rouge-L 的改进版[1]--------Rouge-W

Meteor

Meteor 标准与2004年由Lavir发现在评价指标中召回率的意义后提出，Meteor测度基于单精度的加权调和平均数和单字召回率

其目的是解决BLEU标准中固有的缺陷，Meteor也包括其他指标没有发现一些其他功能，如同义词匹配等。计算METEOR需要预先给定一组校准(alignment)mm，而这一校准基于WordNet的同义词库，通过最小化对应语句中连续有序的块(chunks)chch来得出。

则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均：

$Pen=\gamma (\frac{ch}{m})^{\theta}$

$F_{mean}=\frac{P_m R_m}{ {\alpha}P_{m}+(1-\alpha)R_{m}}$

$P_{m}=\frac{|m|}{\sum_{k}h_k(c_i)}$

$R_m=\frac{|m|}{\sum_{k}h_k(s_{i,j})}$

$METEOR=(1-Pen)F_{mean}$

其中， $\alpha$ , $\gamma$ 和 $\theta$ 均为用于评价的默认参数。

[1]http://www.aclweb.org/anthology/W04-1013
[2]M. Denkowski and A. Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in EACL Workshop on Statistical Machine Translation, 2014.