文章标题生成(HeadLine Generation for News Articles)评测指标Rouge-(1,2,L,S) 和 Meteor

本文探讨自动文摘生成的评价方法,重点介绍Rouge和Meteor指标,包括Rouge-1、Rouge-2、Rouge-N、Rouge-L及其改进版Rouge-W,以及Meteor的计算原理,旨在量化自动生成摘要与参考摘要间的相似度。
摘要由CSDN通过智能技术生成

文章标题生成评价指标

摘要:这里是关于自动文摘生成论文中常用的相关评价指标(Rouge and Meteor )的描述.Bleu指标大家比较熟悉,这里不做过多的解释。关于Rouge 是评估自动文摘以及机器翻译的一组指标。它们过将自动生成的摘要或翻译与一组参考摘要(人工生成的)进行比较计算,得出相应的分值,用来衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。Meteor 是2004年由Lavir发现在评价指标中召回率的意义后提出的。

Rouge-1、Rouge-2、Rouge-N

相关文献[1]中对Rouge-N的定义是这样的;

Rouge_N = \frac{\sum_{S \in \{ ReferenceSummaries \}} \sum_{ {gram}_n \in S } {Count_{match}({gram}_n) } } {\sum_{S\in\{ReferenceSummaries\}}\sum_{​{gram}_n \in S}Count(gram_n))}

分母是n-gram的个数,分子是参考文献摘要和自动摘要共有的n-gram的个数。直接借用一个例子说明:
生成的摘要:

  1 the cat was found under the bed 

参考摘要:

     the cat was under the bed

然后去看一个关于n-gram的分析表格。

Rouge_1(x_1,Y)=\frac{6}{6}=1.0,分子是待评测摘要都出现的1-gram的个数。,分子是参考摘要的1-gram个数。(其实分母也可以是待评测摘要的,但是在精确率和召回率之间),我们更关心的是召回率Recall, 同时这也和上面ROUGN_N的公式相同,同样,Rouge_2(X_1,Y)=\frac{4}{5}=0.8

Rouge-L

L即是LCS最长公共子序列,因为Rough-L使用了最使用了最长公共子序列。Rouge-L计算方式如下:

R_{lcs}=\frac{LCS(X,Y)}{m}

P_{lcs}=\frac{LCS(X,Y)}{n}

F_{lcs}=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2P_{lcs}}

其中LCS(X,Y)是X和Y的最长共公子序列的长度,m,n分别表示参考摘要和自动摘要的长度(一般就是所含词的个数),R_{lcs},P_{lcs}分别表示召回率和准确率。最后的F_{lcs}即是我们说的Rouge-L。在DUC中, \beta被设置为一个很大的数,所以Rouge_L几乎考虑了R_{lcs},与上文所说的一般只考虑召回率对应。

Rouge-L 的改进版[1]--------Rouge-W

Meteor

Meteor 标准与2004年由Lavir发现在评价指标中召回率的意义后提出,Meteor测度基于单精度的加权调和平均数和单字召回率

其目的是解决BLEU标准中固有的缺陷,Meteor也包括其他指标没有发现一些其他功能,如同义词匹配等。计算METEOR需要预先给定一组校准(alignment)mm,而这一校准基于WordNet的同义词库,通过最小化对应语句中连续有序的块(chunks)chch来得出 。

则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均:

Pen=\gamma (\frac{ch}{m})^{\theta}

F_{mean}=\frac{P_m R_m}{ {\alpha}P_{m}+(1-\alpha)R_{m}}

P_{m}=\frac{|m|}{\sum_{k}h_k(c_i)}

R_m=\frac{|m|}{\sum_{k}h_k(s_{i,j})}

METEOR=(1-Pen)F_{mean}

其中,\alpha,\gamma\theta均为用于评价的默认参数。

[1]http://www.aclweb.org/anthology/W04-1013
[2]M. Denkowski and A. Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in EACL Workshop on Statistical Machine Translation, 2014.

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值