清华大学关健博士：利用自监督学习的开放端故事生成评价方法

AITIME论道

于 2020-11-10 19:00:00 发布

阅读量567

点赞数 3

文章标签：机器学习人工智能深度学习编程语言自然语言处理

本文链接：https://blog.csdn.net/AITIME_HY/article/details/109610676

版权

UNION是一种无参考指标，用于评价开放端故事生成任务，如自然语言生成中的故事质量。它通过自监督学习，不依赖人工标注或特定模型，能更好地评估生成故事的合理性并与人工评价保持高相关性。相比其他指标，UNION在数据迁移和质量迁移的泛化性方面表现出色。

摘要由CSDN通过智能技术生成

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

尽管现有的有参考指标（如BLEU）已经在机器翻译评价等任务上有较好的表现，但是对于开放端语言生成评价（如故事生成、对话生成）等具有一对多特性的任务，这些指标仍然与人工评价有较低的相关性。对此，EMNLP 2020中的《UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation》一文为开放端故事生成评价提出了一个可学习的无参考指标UNION，可以不需要任何参考文本即可对生成故事的质量进行评价。UNION采用自监督学习的方法，不依赖于任何人工标注和具体模型。在两个故事数据集上的实验表明，UNION在评价生成故事的质量上是一个更可靠的评价指标，与人工评价有更好的相关性，同时也比现有的SOTA评价指标更好的泛化性。

本次AI TIME策划的EMNLP 2020专题报告，特别邀请到论文作者、来自清华大学计算机系的博士生关健给大家详细讲解UNION这一评价指标。

关健，清华大学计算机系2019级博士生，交互式人工智能（CoAI）组成员，师从黄民烈副教授。主要研究方向为自然语言生成，已在EMNLP、NeurIPS、AAAI、TACL等国际会议或期刊上发表数篇论文。

一、自然语言生成

近两年可以说是自然语言处理（NLP）整个领域大爆发的阶段，大量研究工作和技术的提出不断为计算机能够听懂“人话”添砖加瓦。自然语言生成（NLG）作为自然语言处理的一部分，现已有多种生成模型。在自然语言生成模型中，模型框架主要有LM、Seq2Seq，模型结构包括RNN、Transformer等。虽然GPT3、T5、BART等预训练模型已经能够生成很好的文本，比如像故事、对话以及机器翻译任务，但是这些模型也受到了一些源于评价方法的限制。

图1是自然语言生成过程，通常如由一个Transformer模型通过多头注意力机制生成一个自然语言文本。

如何评价生成结果？一般而言有两种：

人工评价，标注者通过人工标注，判断生成好还是不好，再反馈给语言生成模型进行改进。
自动评价，计算机基于指标自动完成打分，并将结果进行反馈。

人工评价虽然可以得到较为准确的评价结果，但是存在耗时、昂贵、难以复现等不可避免的问题。而自动评价相对更为快速，具有成本低廉、可重复计算等优势，可以更好地指导模型生成，提高生成质量。评价是一个非常有前景且大有可为的领域，做好评价工作可以快速更新迭代自然语言生成模型。而且将人类先验知识融入评价方法，就能够生成人类所需的文本。

图1 自然语言生成示例

事实上，不同的自然语言生成任务有不同的评价方法。受限语言生成 (Constrained NLG)任务如机器翻译、自动摘要等，具有典型的一对一特性，即输入中包含生成所需的充分信息。对于这类任务，BLEU、MoverScore等评价指标就可以达到很好的效果。而开放端语言生成 (Open

最低0.47元/天解锁文章

AITIME论道

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
清华大学关健博士：利用自监督学习的开放端故事生成评价方法

⬆⬆⬆ 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！尽管现有的有参考指标（如BLEU）已经在机器翻译评价等任务上有较好的表现，但是对于开放端语言生...
复制链接

扫一扫