基于Seq2Seq模型的文本生成评价指标解析

欢桑

已于 2023-01-08 19:50:39 修改

阅读量544

点赞数 2

文章标签：人工智能 nlp

于 2023-01-08 19:41:15 首次发布

本文链接：https://blog.csdn.net/qq_43588670/article/details/128604335

版权

文本生成目前的一大瓶颈是如何客观，准确的评价机器生成文本的质量。一个好的评价指标（或者设置合理的损失函数）不仅能够高效的指导模型拟合数据分布，还能够客观的让人评估文本生成模型的质量，从而进一步推动 text generation 商业化能力。

文章目录

一、人工评价方式
二、自动评价方式

一、人工评价方式

人工评价方法分为Intrinsic Evaluation，extrinsic evaluation，the evaluator和Inter-evaluator Agreement等4类，下面将简要介绍不同方法。

1.Intrinsic Evaluation

比较生成的文本和目标文本的属性例如流畅性，内部关联性，正确性等。

2.Extrinsic Evaluation

评价生成的文本在下游子任务上的表现判断其效果。但是实施的难度和成本都比intrinsic evaluation要高，故没有后者常用。该方法相当于通过文本在具体场景中的应用情况，判定文本质量。extrinsic human evaluatoin 通常在对话当中使用，通过对话的持续长度或者是用户对系统的体验排序进行评估。

3.The Evaluator

通过雇佣特定的人群进行文本的评估。研究人员能够和评估人员进行直接的交流，方便掌控研究进度，实时调整。但存在耗时长，成本高等问题，同时评估人员可能会根据研究人员的喜好做出不那么客观的评价。

4.Inter-evaluator Agreement

不同评估人员之间的分歧，能够作为一个有用的方式用以判定文本生成的效果。评估人员高度统一的结果意味着任务被很好地定义。
几种常用的表征评估一致性方法
Percent agreement：用以判定所有人一致同意的程度。
Cohen’s k：该指标能够捕捉评估一致的随机性。
Krippendorff’s alpha：判定评测人员之间的不一致性。

二、自动评价方式

这些方法是基于文本的中字符串/内容的重叠，词汇的多样性，词之间的距离等方式判定整个文本的生成质量。
1.BLEU(The Bilingual Evaluation Understudy)最开始在机器翻译领域中使用，用于比较翻译文本和参考文本的相似性。研究表明 BLEU 适用于评估短文本生成任务，而不适用于长文本场景（story generation）中。原因在于它不能很好的评价上下文理解上的关联。个人觉得这个是最常见的。

BLEU详细解读

2.ROUGE(Recall-Oriented Understudy for Gisting Evaluation)表示的是一系列的方法集合，常用于对有多个句子或者段落构成的长文本进行摘要生成。ROUGE值是用于衡量自然语言生成中句子流畅性的一个指标。ROUGE最开始是对文本自动摘要进行效果评估，它把自动生成的摘要和人工生成的参考摘要相比较，计算出的得分表示两者之间的相似性。rouge也用于机器翻译，image captioning,问题生成等短文本生成领域。根据计算grams的基本单元分为多种，如：rouge-{1/2/3/4},rouge-l。rouge和BLEU比较类似，可以看做是 BLEU 的改进版，专注于召回率而非精度。除此之外，rouge的问题在于它不适用于长文本生成，因为它并不能很好的提供语法等方面的信息。
ROUGE 大致分为四种（常用的是前两种）：
1）ROUGE-N （将 BLEU 的精确率优化为召回率）
2）ROUGE-L （将 BLEU 的 n-gram 优化为公共子序列）
3）ROUGE-W （将 ROUGE-L 的连续匹配给予更高的奖励）
4）ROUGE-S （允许 n-gram 出现跳词 (skip)）

不同的摘要任务下，选择合适的Rouge指标
1)单文档摘要任务中，ROUGE-2, ROUGE-L, ROUGE-W, 以及ROUGE-S表现很好
2)在短摘要/标题式摘要任务中，ROUGE-1, ROUGE-L, ROUGE-W,ROUGE-SU4, 以及ROUGE-SU9表现很棒
3)在多文档摘要任务中，当停用词被排除在匹配之外时，ROUGE-1, ROUGE-2, ROUGE-S4, ROUGE-S9, ROUGE-SU4, 以及ROUGE-SU9表现不错
4)排除停用词通常能改善相关性评估
使用多个reference(ideal 摘要)可以改善相关性评估。

3.meteor(The Metric for Evaluation of Translation with Explicit ORdering)的提出是为了解决BLEU的不足，与只测量精度的BLEU相比，meteor是基于unigram精度和召回率的调和平均值，可以看作是BLEU的升级版。meteor 广泛应用于机器翻译中，也适用于image captioning，question generation和summarization等领域。同时metor的变体版本可以扩展该类别中的大多数指标不包括的精确词匹配，例如词干和同义词匹配。这些变体解决了参考翻译可变性的问题，允许将词形态变体和同义词识别为有效的翻译。METEOR 也包括其他指标没有发现一些其他功能，如同义词匹配等。METEOR 用 WordNet 等知识源扩充了一下同义词集，同时考虑了单词的词形（词干相同的词也认为是部分匹配的，也应该给予一定的奖励，比如说把 likes 翻译成了 like 总比翻译成别的乱七八糟的词要好吧？）
在评价句子流畅性的时候，用了 chunk 的概念（候选译文和参考译文能够对齐的、空间排列上连续的单词形成一个 chunk，这个对齐算法是一个有点复杂的启发式 beam serach），chunk 的数目越少意味着每个 chunk 的平均长度越长，也就是说候选译文和参考译文的语序越一致。

欢桑

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
基于Seq2Seq模型的文本生成评价指标解析

文本生成目前的一大瓶颈是如何客观，准确的评价机器生成文本的质量。一个好的评价指标（或者设置合理的损失函数）不仅能够高效的指导模型拟合数据分布，还能够客观的让人评估文本生成模型的质量，从而进一步推动 text generation 商业化能力。
复制链接

扫一扫