©作者 | 申琛惠 程丽颖 邴立东 司罗 等
单位 | 阿里巴巴达摩院
论文标题:
MReD: A Meta-Review Dataset for Structure-Controllable Text Generation
收录会议:
Findings of ACL 2022
论文链接:
https://arxiv.org/abs/2110.07474
代码和数据:
https://github.com/Shen-Chenhui/MReD
网页Demo:
https://nlp.aliyun.com/mred
背景简介
传统的文本生成任务(不可控制型生成)通常只能训练模型,生成单一的贴近标准文本(gold)的内容,却忽视了在实际书写中,作者需要根据具体情况来强调不同侧重点的需求。如果没有实际的应用背景,对于不同的生成内容我们很难区分孰优孰劣,而生成符合应用背景的内容则需要模型对于相关领域有足够深入的“了解”。可控制型文本生成旨在文本生成的基础上进一步控制文本生成的方向,使生成的文本充分满足控制变量的要求,进而更为灵活地满足实际应用的需求。
目前已有的可控文本生成研究探索了文本情感的正负度(sentiment polarity)【1】、文本语言的正式性或礼貌程度【2】等。这些研究存在两个明显的局限:1)缺乏更为精确的依据内容功能性进行的控制;2)不能对生成文本进行篇章/文档级的控制。我们针对当前可控制型文本生成研究领域存在的以上两个问题,首次提出了篇章级可控文本生成任务,并整理了较大规模、逐句标注的领域主席评审数据集(MReD: Meta-Review Dataset),来尝试在深刻“理解”领域背景知识的前提下,通过控制目标文本的整体结构来更精细和可控地生成文本。
MReD数据集和任务介绍
为了构建实验数据集,我们先从 OpenReview 的平台上抓取了 ICLR 会议 2018 至 2021 年中的 7894 篇论文。经过删选,我们保留了其中 7089 篇同时拥有同行评审(peer reviews)和其对应主席评审(meta-reviews)的文章来组成我们的 MReD 数据集。详情如下图所示。
我们雇佣了 12 位专业的数据标注员对以上选中的 7089 篇主席评审进行了逐句标注(共 23675 句)。根据主席评审每一句的功能性以及上下文的背景,标注员把每一个句子标注为以下 9 个类别之一:
在标注的每个流程中我们都进行了严格的质量把关。每个批次我们都会抽查标注数据,不过关的标注会被要求通篇重标,直到合格为止。每个句子由两位不同的标注员各自标注,最终我们取得的标注一致性指数(Cohen's kappa)为 0.778。最后一个流程则是将之前标注不一致