摘要质量评价

1、自动评价

高效、一致性好、节省人力时间,但不精确
1)ROUGE
类似BLEU,基于N元模型自动评价系统摘要与人工摘要的吻
合程度
ROUGE-N, ROUGE-SU4

ROUGE

(Recall-Oriented Understudy for Gisting Evaluation),在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,现被广泛应用于DUC(Document Understanding Conference)的摘要评测任务中。ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。通过与专家人工摘要的对比,提高评价系统的稳定性和健壮性。该方法现已成为摘要评价技术的通用标注之一。
ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N=1、2、3、4,分别代表基于1元词到4元词的模型),ROUGE-L,ROUGE-S, ROUGE-W,ROUGE-SU等。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的ROUGE方法。
这里写图片描述

其中,n表示n-gram的长度,{Reference Summaries}表示参考摘要,即事先获得的标准摘要,表示候选摘要和参考摘要中同时出现n-gram的个数,则表示参考摘要中出现的n-gram个数。不难看出,ROUGE公式是由召回率的计算公式演变而来的,分子可以看作“检出的相关文档数目”,即系统生成摘要与标准摘要相匹配的N-gram个数,分母可以看作“相关文档数目”,即标准摘要中所有的N-gram个数。
例:R1 : police killed the gunman.
R2 : the gunman was shot down by police.

C1 : police ended the gunman.

C2 :the gunman murdered police.

R1,R2 为参考摘要,C1,C2 为候选摘要。

ROUGE-1(C1)=(3+3)/(4+7)=6/11

ROUGE-1(C2)=(3+3)/(4+7)=6/11

ROUGE-2(C1)=(1+1)/(3+6)=2/9

ROUGE-2(C2)=(1+1)/(3+6)=2/9

C1与C2的ROUGE-1、ROUGE-2分数相等,但是意思完全不相同!

优点:

    直观,简洁,能反映词序。

缺点:

    区分度不高,且当N>3时,ROUGE-N值通常很小。

应用场景:

    ROUGE-1:短摘要评估,多文档摘要(去停用词条件);

    ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);

参考文章:http://blog.csdn.net/lcj369387335/article/details/69845385

BE

基于句法树/依存关系树,句子划分为最小语义单元(BE,语法
成分+关系),然后基于BE进行ROUGE评测
自动评价方法本身也一直是被研究对象

2、人工评价

精确,但耗费人力时间,容易受干扰(可控)
1)内容方面(Content)
基于金字塔方法(Pyramid method)
 基于摘要内容单元(SCU)进行计算,SCU的选择和匹配由人工
完成
2) 可读性方面(Readability/Fluency)
人工打分: 1: Very Poor … 5: Very Good
3)综合质量(Overall Responsiveness)
人工打分

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值