文章目录
1. NLG的自动评价方法
大多NLG的评价方式是一种基于词重叠的评价方法,如BLEU,ROUGE,METEOR,F1
等,但是这些方式针对机器翻译这种开放性不是那么强的NLG应用,表现尚可,但是开放性越强,评价方法越糟糕,比如在摘要生成、故事写作上,直接用这些方法就不是很合适。
这里给出两篇论文的例子说明基于词重叠的评价在对话系统上并不好
1.1 论文-如何不对你的对话系统进行评价
这里对比了三种自动评估和人工评估在不同对话数据集上的结果差异。其中最左边橙色框图的是基于词重叠的(这里用了BLEU-2
,中间的是基于词向量的,最右边的是两组人工评价。
可以看到机器评价和人工评价结果相差巨大,而同样是人工评价的结果就比较一致。说明机器评价方法不好。
1.2 论文-我们为什么需要新的NLG评价方法
另一个例子来自Why We Need New Evaluation Metrics for NLG
这篇文章提出很多不同的评价方法
1.2.1 自动评价方法
1.2.1 基于词的评价方法(word-based metrics,简称WBMs )
NLG评估借用了相关领域的一些自动评价方法,例如机器翻译、摘要生成或图像字幕生成,这些领域将系统生成的输出文本与人类生成的参考标准进行比较,得分越高证明结果更像人写的。WBM
是一类方法,按照评价方法出发点的难易程度又可以继续往下划分:
- 基于词覆盖的评价方法(Word-overlap Metrics,简称WOMs)包括:
TER,BLEU,ROUGE,NIST,CIDER,METEOR
- 基于语义相似性(Semantic Similarity,简称SIM)
1.2.2 基于语法的评价方法(Grammar-based metrics ,简称GBMs)
文本首次提出利用GBM去评价