CH3-NLG的评价

1. NLG的自动评价方法

大多NLG的评价方式是一种基于词重叠的评价方法,如BLEU,ROUGE,METEOR,F1等,但是这些方式针对机器翻译这种开放性不是那么强的NLG应用,表现尚可,但是开放性越强,评价方法越糟糕,比如在摘要生成、故事写作上,直接用这些方法就不是很合适。

这里给出两篇论文的例子说明基于词重叠的评价在对话系统上并不好

1.1 论文-如何不对你的对话系统进行评价

下图来自论文《How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation》

这里对比了三种自动评估和人工评估在不同对话数据集上的结果差异。其中最左边橙色框图的是基于词重叠的(这里用了BLEU-2,中间的是基于词向量的,最右边的是两组人工评价。

可以看到机器评价和人工评价结果相差巨大,而同样是人工评价的结果就比较一致。说明机器评价方法不好。

1.2 论文-我们为什么需要新的NLG评价方法

另一个例子来自Why We Need New Evaluation Metrics for NLG

这篇文章提出很多不同的评价方法

1.2.1 自动评价方法

1.2.1 基于词的评价方法(word-based metrics,简称WBMs )

NLG评估借用了相关领域的一些自动评价方法,例如机器翻译、摘要生成或图像字幕生成,这些领域将系统生成的输出文本与人类生成的参考标准进行比较,得分越高证明结果更像人写的。WBM是一类方法,按照评价方法出发点的难易程度又可以继续往下划分:

  • 基于词覆盖的评价方法(Word-overlap Metrics,简称WOMs)包括:TER,BLEU,ROUGE,NIST,CIDER,METEOR
  • 基于语义相似性(Semantic Similarity,简称SIM
1.2.2 基于语法的评价方法(Grammar-based metrics ,简称GBMs)

文本首次提出利用GBM去评价

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值