相似度论文系列-1:入门方法Towards a Unified Multi-Dimensional Evaluator for Text Generation

该文提出了一种新的多维度文本生成评估框架UNEVAL,旨在改善现有相似度指标与人类评估之间的关联性。作者通过将评估维度转化为二分类问题,如一致性、连贯性、流畅性和相关性,构建了伪数据集并使用连续训练来训练模型。实验显示,UNEVAL在文本摘要等任务上的表现优于传统和单一维度评估器。然而,模型的可解释性和生成数据的噪声是其局限性。
摘要由CSDN通过智能技术生成

Towards a Unified Multi-Dimensional Evaluator for Text Generation

作者刘鹏飞,这篇文章是围绕相似度问题提出了一种统一的评测方法。区别与以往overlap和embedding的方法,给人的感觉是不那么直接,这个直接,用词不太好。总之,是一种很新颖的视角。
作者还是使用的生成模型,旨在统一建模任务形式,将所有类似的任务能够一种统一的范式建模。建模形式是问题问答类型。

好在哪?写作上可以借鉴。方法上可参考。
不足的地方:是选择了几个方面对文本相似做出评估的,比如一致性,建模就是问题和答案是一致的吗?这种方法回答yes or
no,真的可以使得模型判断出一致性吗?模型真的理解了一致性吗?可解释性上,能不能在加强一些?

摘要

引出背景:multi-dimentional evaluation is a dominant paradigm for human evaluation in NLG.
研究现状与不足:However automatic evaluation is still dominated by similarity-based metrics, and we lack a reliable framework for a more comprehensive evaluation of advanced models.
介绍文本方法:We propose a unfied multi-dimensional evaluator for NLG.We…
结果:(效果)Experiments on three typical NLG tasks show that UNEVAL correlates substantially better with human judgements than existing metrics (和human的correlation是最关注的地方,在评估metric中).Specifically,compared to the top-performaing unified evaluators ,UNIEVAL achieves a 23% higher correlation on text summarization.

introduction

介绍了NLG任务评测任务发展的前世今生,最早是基于统计的方法(BLEU、编辑距离)、之后是基于嵌入的相似度测评,但这些测评方法和人类评测均存在差异,correlation并不太好。
在评测上,开始从单一维度向多维度方法转变,在text summary中,评测方面是:coherence, consistency, fluency, and
relevance (see Table 1).
实现多维度评测可以通过训练每个维度的一个评估器,或者训练一个统一的评估器。

如下,是几种evaluation matrics:
在这里插入图片描述

这篇文章introduction介绍自己的方法,从不同的方面,describes its method benefits.

相关工作

如果想要了解、熟悉相似度这个领域,非常有必要去翻阅这一部分的reference。

文章method

面向多维度下的统一测评方法——多维度是在测评时,考虑多个方向,比如一致性、连贯性、完整性等。
将每个维度,转为二分类问题,比如维度i是di = coherence in
summarization, the transformed question
问题qi 是 “Is this a coherent summary to the document?”
计算评分值是:
在这里插入图片描述

伪数据构建(pseudo data)

由于并没有基于每个维度的数据集,因此,作者根据自定义的规则创建了面向每个维度下的数据集。
比如:1) 连贯性是指所有的句子是否形成一个连贯的主体。为了建立不连贯的摘要,我们使用BM25(Robertson和Zaragoza,2009)来检索类似的摘要,并从检索到的摘要中随机选择一个句子来替代groundtruth摘要中的一个句子。
2) 一致性是指摘要和源文件之间的事实一致性。我们使用Chen等人(2021)的方法,通过反义词替换、数字编辑、实体替换和句法修剪来构建不一致的摘要。 3)流畅性代表单个句子的质量。我们从正面样本中随机抽取一个span2,并进行重复、删除和洗牌中的一种,以获得不流畅的摘要。4) 相关性是指摘要是否只包含源文件的重要信息。转换规则与一致性相似,只是我们随机替换多个句子,而不是一个句子

训练

选择continual training,使得模型具有在多个任务上的学习能力。When a new dimention data is introduced,we add a portion of data from all previous dimentions to replay.

涉及到一个问题:不同维度的introduce 的顺序,需要考虑?这是会affect the performance of the model.

实验结果

对比了传统和单维度、统一维度评比方法。
实验分析中,先介绍了模型所有的baseline。然后介绍了benchmarks数据集。之后按照任务分为summary和diagonal分别分析了实验结果
在这里插入图片描述

模型不足

作者在文章末尾提到了几点
(1)可解释的问题。
(2)生成数据存在噪声的问题
(3)T5model太大,如何在小模型上训练的问题。

总结

我认为不足,最大的就是可解释性,还是开头的问题 。
另外, 维度是需要自己去设立的?维度的数量是否存在影响?维度怎么设立?的问题,文章中似乎并没有探讨,是采用前人研究中,通常使用的dimention(实验结果中表头部分)做的分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值