清华大学关健博士:利用自监督学习的开放端故事生成评价方法

UNION是一种无参考指标,用于评价开放端故事生成任务,如自然语言生成中的故事质量。它通过自监督学习,不依赖人工标注或特定模型,能更好地评估生成故事的合理性并与人工评价保持高相关性。相比其他指标,UNION在数据迁移和质量迁移的泛化性方面表现出色。
摘要由CSDN通过智能技术生成

⬆⬆⬆              点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

尽管现有的有参考指标(如BLEU)已经在机器翻译评价等任务上有较好的表现,但是对于开放端语言生成评价(如故事生成、对话生成)等具有一对多特性的任务,这些指标仍然与人工评价有较低的相关性。对此,EMNLP 2020中的《UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation》一文为开放端故事生成评价提出了一个可学习的无参考指标UNION,可以不需要任何参考文本即可对生成故事的质量进行评价。UNION采用自监督学习的方法,不依赖于任何人工标注和具体模型。在两个故事数据集上的实验表明,UNION在评价生成故事的质量上是一个更可靠的评价指标,与人工评价有更好的相关性,同时也比现有的SOTA评价指标更好的泛化性。

本次AI TIME策划的EMNLP 2020专题报告,特别邀请到论文作者、来自清华大学计算机系的博士生关健给大家详细讲解UNION这一评价指标。

关健,清华大学计算机系2019级博士生,交互式人工智能(CoAI)组成员,师从黄民烈副教授。主要研究方向为自然语言生成,已在EMNLP、NeurIPS、AAAI、TACL等国际会议或期刊上发表数篇论文。

一、自然语言生成

近两年可以说是自然语言处理(NLP)整个领域大爆发的阶段,大量研究工作和技术的提出不断为计算机能够听懂“人话”添砖加瓦。自然语言生成(NLG)作为自然语言处理的一部分,现已有多种生成模型。在自然语言生成模型中,模型框架主要有LM、Seq2Seq,模型结构包括RNN、Transformer等。虽然GPT3、T5、BART等预训练模型已经能够生成很好的文本,比如像故事、对话以及机器翻译任务,但是这些模型也受到了一些源于评价方法的限制。

图1是自然语言生成过程,通常如由一个Transformer模型通过多头注意力机制生成一个自然语言文本。

如何评价生成结果?一般而言有两种:

  1. 人工评价,标注者通过人工标注,判断生成好还是不好,再反馈给语言生成模型进行改进。

  2. 自动评价,计算机基于指标自动完成打分,并将结果进行反馈。

人工评价虽然可以得到较为准确的评价结果,但是存在耗时、昂贵、难以复现等不可避免的问题。而自动评价相对更为快速,具有成本低廉、可重复计算等优势,可以更好地指导模型生成,提高生成质量。评价是一个非常有前景且大有可为的领域,做好评价工作可以快速更新迭代自然语言生成模型。而且将人类先验知识融入评价方法,就能够生成人类所需的文本。

图1  自然语言生成示例

事实上,不同的自然语言生成任务有不同的评价方法。受限语言生成 (Constrained NLG)任务如机器翻译、自动摘要等,具有典型的一对一特性,即输入中包含生成所需的充分信息。对于这类任务,BLEU、MoverScore等评价指标就可以达到很好的效果。而开放端语言生成 (Open

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值