语言生成评价的角度
语法:评价生成文本的通顺度,是否符合语法,是否存在用语错误、重复等。
信息量:现代的语言生成模型很容易生成没有信息量的通用文本,因此,需要评价生成内容是否包含充分信息,通常包括信息量、多样性、信息特异度、独特性等。
输入-输出的关系:包括相关性、忠实度(即生成内容的事实、关键信息必须与输入给定的一致)、连贯性等。
自洽性:生成内容除与给定输入要一致、连贯外、其自身内部应该具有很好的自洽性,包括符合常识、逻辑、不包含语义冲突,具有较好的一致性。
总体评价:从总体上评价生成内容的质量,如质量、自然度、合适性等。
上述多数需要人工评价,语言生成的评价角度还可以从“与参考内容的一致性”和“类人性”来考虑。
人工评价
人工评价的分类
人工评价一般分为两种:内在评价和外在评价。
内在评价一般从总体或细分为维度上直接评估一个模型生成文本的质量,这些维度包括通顺度(Fluency)、连贯性(Coherence)、一致性(Consistency)、常识逻辑性(Logic)等。为了尽可能消除人工标注的偏差,一般采取多个标注者对同一条数据进行独立重复标注的方式。标注者通过阅读标注规范、参考输出,对标注结果给出离散的类别分数,或者输入连续分值作为最后的标注结果。
外在评价则通过语言生成结果在下游任务或实际应用系统中的表现间接评估语言生成的质量。如对话轮次、持续时间、用户对系统的最终评分等。
人工评价按照执行方式一般分为两种:逐点(point-wise)评价和逐对(pair-wise)评价。
逐点评价中,标注者对每个生成结果按照既定的维度进行评估打分。具有很强的主观性,标注者之间的偏差可能很大,一致性很低。
逐对评价,将两个模型A和B在相同输入条件下的输出结果同时展现给标注者,标注者决定结果A相比结果B更好、更差或者差不多。逐对评价基于一个基本事实:标注者从两个结果中判断孰优孰劣比判断一个结果好到什么程度更容易。
人工评价按照执行方式分为观测式评价和交互式评价。在观测式评价中,标注者仅对展现的结果进行评估并给出相应的分数。在交互式评价中,标注者需要与系统进行不断的交互,系统根据标注者输入动态生成输出,最终标注者根据其体验对系统进行评估。
标注一致性
由于人工标注存在主观性,所以需要多个标注者完成同一条数据的而标注,因此,需要度量多个标注者之间的标注一致性。
度量标注一致性一般采用的方法有:一致性百分比、Cohen卡帕系数、Fleiss卡帕系数和Krippendorff阿尔法系数。
自动评价
自动评价指标常常从以下几个角度进行考虑:生成句子参考内容在词汇、语义或分布上的一致性,词汇的多样性、与人类写作的相似性等。
无需学习的自动评价方法
需要参考答案的评价方法
BLEU
使用了一种改进的词组匹配方法,用于衡量生成句子与一个或多个参考答案的相似性。BLEU-K,考虑最高K-gram词组的BLEU得分。BLEU得分基于词组的匹配方法,难以捕捉语义级别的相似性。
ROUGE
ROUGE是一系列为摘要生成设计的评价方法,依赖词级别的匹配。其中应用最广泛的是ROUGE-N,它计算了N-gram词组的召回率。ROUGE-L也是一种常用的指标,它不再使用词组的匹配,而改为计算最长公共子序列,从而支持非连续的匹配情况。
和BLEU相比,ROUGE考虑了词级别的召回率,并且提出了处理非连续词组匹配的方法。ROUGE具有更好地可解释性,并且支持系统级别的显著性测试。
METEOR
METEOR是为机器翻译设计的评价方法,同时考虑了精确率和召回率,并且使用了一种新的匹配机制。METEOR不再只从字面上对词进行匹配,而考虑了词的含义和词性上的变化。在之前的指标BLEU和ROUGE中,两个词匹配当且仅当两个词完全一致。METEOR引入了词汇资源库WordNet,将同义词也考虑在内;同时,METEOR也考虑了词表和词性的变化,将词干相同的单词视为匹配,如visited与visiting。
和BLEU相比,METEOR不再局限于词级别的一致匹配方法,而是利用外部语言知识来辅助评价。而且,METEOR的匹配块惩罚在原有单个词匹配上做出了改进,对词序的调换更加敏感。
CIDEr
CIDEr是在图像描述生成中引入的评价指标,它在词组匹配的基础上考虑了词组频率对文本含义的影响。该方法使用了TF-IDF的思想,对每句话抽取特征,进而计算相似度。
Perplexity
Perplexity即困惑度或混乱度,与模型生成参考答案的概率有关。生成参考答案每个词的概率越高,模型的困惑度越低。Perplexity衡量了模型生成参考答案的可能性,在计算过程中,模型并未生成任何句子,因此该指标反映的不是某个句子的好坏,而是模型G在数据集上的拟合情况。
无需参考答案的评价方法
Distinct
Distinct衡量了模型生成词组的独特度,常用于开放端对话生成的多样性评价。取值范围在0~1之间,值越大代表模型生成结果的多样性越
Self-BLEU
Self-BLEU衡量了模型生成句子之间的相似程度,常用于无条件语言生成的多样性评价。
Self-BLEU的取值和BLEU中统计的词组长度相关。一般来说,N越大,Self-BLEU的值越大。在N保持不变的情况下,Self-BLEU的值越大,代表生成多样性越低。
可学习的自动评价方法
可学习的自动评价方法按照是否需要人工标注的质量打分作为监督信号可分为有监督评价方法和无监督评价方法。有监督评价方法能够从人工打分中隐式学习到文本中标注者更关注的语言特征,可以实现与人工打分较高的一致性。但是,这种评价方法需要大量的人工标注,费时费力,且容易过拟合到训练数据上,难以泛化到新的数据上。因此,无监督评价方法被广泛应用,主要包括基于对抗训练的评价方法、基于自监督学习的评价方法等。
有监督评价方法
ADEM
BLEURT
无监督评价方法
Language Model Score(Forward Perplexity,FwPPL)
Reverse Perplexity(RevPPL)
Frechet Inception Distance(FID)
Embedding-based Metrics
BERTScore
MoverScore
对抗评价方法
RUBER
自动评价与人工评价的统计相关性
研究者通常用与人工评价的统计相关性来评价自动评价指标。常用的相关系数有三种,分别是Person相关系数、Spearman相关系数和Kendall相关系数。这3种相关系数的取值均在-1~1之间,复数表示负相关,正数表示正相关,绝对值越大表示统计相关性越强。
来源于《现代自然语言生成》