相似度论文系列-1：入门方法Towards a Unified Multi-Dimensional Evaluator for Text Generation

最新推荐文章于 2024-08-18 23:49:35 发布

YingJingh

最新推荐文章于 2024-08-18 23:49:35 发布

阅读量392

点赞数

分类专栏：相似度文章标签：深度学习

本文链接：https://blog.csdn.net/Hekena/article/details/127853565

版权

相似度专栏收录该内容

27 篇文章 2 订阅

订阅专栏

该文提出了一种新的多维度文本生成评估框架UNEVAL，旨在改善现有相似度指标与人类评估之间的关联性。作者通过将评估维度转化为二分类问题，如一致性、连贯性、流畅性和相关性，构建了伪数据集并使用连续训练来训练模型。实验显示，UNEVAL在文本摘要等任务上的表现优于传统和单一维度评估器。然而，模型的可解释性和生成数据的噪声是其局限性。

摘要由CSDN通过智能技术生成

Towards a Unified Multi-Dimensional Evaluator for Text Generation

作者刘鹏飞，这篇文章是围绕相似度问题提出了一种统一的评测方法。区别与以往overlap和embedding的方法，给人的感觉是不那么直接，这个直接，用词不太好。总之，是一种很新颖的视角。
作者还是使用的生成模型，旨在统一建模任务形式，将所有类似的任务能够一种统一的范式建模。建模形式是问题问答类型。

好在哪？写作上可以借鉴。方法上可参考。
不足的地方：是选择了几个方面对文本相似做出评估的，比如一致性，建模就是问题和答案是一致的吗？这种方法回答yes or
no,真的可以使得模型判断出一致性吗？模型真的理解了一致性吗？可解释性上，能不能在加强一些？

摘要

引出背景：multi-dimentional evaluation is a dominant paradigm for human evaluation in NLG.
研究现状与不足：However automatic evaluation is still dominated by similarity-based metrics, and we lack a reliable framework for a more comprehensive evaluation of advanced models.
介绍文本方法：We propose a unfied multi-dimensional evaluator for NLG.We…
结果：(效果）Experiments on three typical NLG tasks show that UNEVAL correlates substantially better with human judgements than existing metrics (和human的correlation是最关注的地方，在评估metric中）.Specifically,compared to the top-performaing unified evaluators ,UNIEVAL achieves a 23% higher correlation on text summarization.

introduction

介绍了NLG任务评测任务发展的前世今生，最早是基于统计的方法（BLEU、编辑距离）、之后是基于嵌入的相似度测评，但这些测评方法和人类评测均存在差异，correlation并不太好。
在评测上，开始从单一维度向多维度方法转变，在text summary中，评测方面是：coherence, consistency, fluency, and
relevance (see Table 1).
实现多维度评测可以通过训练每个维度的一个评估器，或者训练一个统一的评估器。

如下，是几种evaluation matrics:
在这里插入图片描述

这篇文章introduction介绍自己的方法，从不同的方面，describes its method benefits.

文章method

面向多维度下的统一测评方法——多维度是在测评时，考虑多个方向，比如一致性、连贯性、完整性等。
将每个维度，转为二分类问题，比如维度i是di = coherence in
summarization, the transformed question
问题qi 是 “Is this a coherent summary to the document?”
计算评分值是：
在这里插入图片描述

伪数据构建（pseudo data）

由于并没有基于每个维度的数据集，因此，作者根据自定义的规则创建了面向每个维度下的数据集。
比如：1) 连贯性是指所有的句子是否形成一个连贯的主体。为了建立不连贯的摘要，我们使用BM25（Robertson和Zaragoza，2009）来检索类似的摘要，并从检索到的摘要中随机选择一个句子来替代groundtruth摘要中的一个句子。
2) 一致性是指摘要和源文件之间的事实一致性。我们使用Chen等人（2021）的方法，通过反义词替换、数字编辑、实体替换和句法修剪来构建不一致的摘要。 3）流畅性代表单个句子的质量。我们从正面样本中随机抽取一个span2，并进行重复、删除和洗牌中的一种，以获得不流畅的摘要。4) 相关性是指摘要是否只包含源文件的重要信息。转换规则与一致性相似，只是我们随机替换多个句子，而不是一个句子

训练

选择continual training，使得模型具有在多个任务上的学习能力。When a new dimention data is introduced,we add a portion of data from all previous dimentions to replay.

涉及到一个问题：不同维度的introduce 的顺序，需要考虑？这是会affect the performance of the model.

实验结果

对比了传统和单维度、统一维度评比方法。
实验分析中，先介绍了模型所有的baseline。然后介绍了benchmarks数据集。之后按照任务分为summary和diagonal分别分析了实验结果。
在这里插入图片描述

模型不足

作者在文章末尾提到了几点
（1）可解释的问题。
（2）生成数据存在噪声的问题
（3）T5model太大，如何在小模型上训练的问题。

总结

我认为不足，最大的就是可解释性，还是开头的问题。
另外，维度是需要自己去设立的？维度的数量是否存在影响？维度怎么设立？的问题，文章中似乎并没有探讨，是采用前人研究中，通常使用的dimention（实验结果中表头部分）做的分析。

YingJingh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
相似度论文系列-1：入门方法Towards a Unified Multi-Dimensional Evaluator for Text Generation

引出背景：multi-dimensional evaluation is a dominant paradigm for human evaluation in NLG.
复制链接

扫一扫