文章标题生成评价指标
摘要:这里是关于自动文摘生成论文中常用的相关评价指标(Rouge and Meteor )的描述.Bleu指标大家比较熟悉,这里不做过多的解释。关于Rouge 是评估自动文摘以及机器翻译的一组指标。它们过将自动生成的摘要或翻译与一组参考摘要(人工生成的)进行比较计算,得出相应的分值,用来衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。Meteor 是2004年由Lavir发现在评价指标中召回率的意义后提出的。
Rouge-1、Rouge-2、Rouge-N
相关文献[1]中对Rouge-N的定义是这样的;
分母是n-gram的个数,分子是参考文献摘要和自动摘要共有的n-gram的个数。直接借用一个例子说明:
生成的摘要:
1 the cat was found under the bed
参考摘要:
the cat was under the bed
然后去看一个关于n-gram的分析表格。
,分子是待评测摘要都出现的1-gram的个数。,分子是参考摘要的1-gram个数。(其实分母也可以是待评测摘要的,但是在精确率和召回率之间),我们更关心的是召回率Recall, 同时这也和上面ROUGN_N的公式相同,同样,
Rouge-L
L即是LCS最长公共子序列,因为Rough-L使用了最使用了最长公共子序列。Rouge-L计算方式如下:
其中是X和Y的最长共公子序列的长度,m,n分别表示参考摘要和自动摘要的长度(一般就是所含词的个数),分别表示召回率和准确率。最后的即是我们说的Rouge-L。在DUC中, 被设置为一个很大的数,所以Rouge_L几乎考虑了,与上文所说的一般只考虑召回率对应。
Rouge-L 的改进版[1]--------Rouge-W
Meteor
Meteor 标准与2004年由Lavir发现在评价指标中召回率的意义后提出,Meteor测度基于单精度的加权调和平均数和单字召回率
其目的是解决BLEU标准中固有的缺陷,Meteor也包括其他指标没有发现一些其他功能,如同义词匹配等。计算METEOR需要预先给定一组校准(alignment)mm,而这一校准基于WordNet的同义词库,通过最小化对应语句中连续有序的块(chunks)chch来得出 。
则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均:
其中,,和均为用于评价的默认参数。
[1]http://www.aclweb.org/anthology/W04-1013
[2]M. Denkowski and A. Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in EACL Workshop on Statistical Machine Translation, 2014.