Meta-review还要亲手写吗?篇章级可控文本生成来帮忙

ea65c8ef47049181d680afe147a25db1.gif

©作者 | 申琛惠 程丽颖 邴立东 司罗 等

单位 | 阿里巴巴达摩院

39934e7b3356f3921771bb3a0b70f8db.png

论文标题:

MReD: A Meta-Review Dataset for Structure-Controllable Text Generation

收录会议:

Findings of ACL 2022

论文链接:

https://arxiv.org/abs/2110.07474

代码和数据:

https://github.com/Shen-Chenhui/MReD

网页Demo:

https://nlp.aliyun.com/mred

e1e1ce6ba4d0d1c64f6a0d4f1850ac9e.png

背景简介

传统的文本生成任务(不可控制型生成)通常只能训练模型,生成单一的贴近标准文本(gold)的内容,却忽视了在实际书写中,作者需要根据具体情况来强调不同侧重点的需求。如果没有实际的应用背景,对于不同的生成内容我们很难区分孰优孰劣,而生成符合应用背景的内容则需要模型对于相关领域有足够深入的“了解”。可控制型文本生成旨在文本生成的基础上进一步控制文本生成的方向,使生成的文本充分满足控制变量的要求,进而更为灵活地满足实际应用的需求。

目前已有的可控文本生成研究探索了文本情感的正负度(sentiment polarity)【1】、文本语言的正式性或礼貌程度【2】等。这些研究存在两个明显的局限:1)缺乏更为精确的依据内容功能性进行的控制;2)不能对生成文本进行篇章/文档级的控制。我们针对当前可控制型文本生成研究领域存在的以上两个问题,首次提出了篇章级可控文本生成任务,并整理了较大规模、逐句标注的领域主席评审数据集(MReD: Meta-Review Dataset),来尝试在深刻“理解”领域背景知识的前提下,通过控制目标文本的整体结构来更精细和可控地生成文本。

711295876cd9ceba369839fc2a197ad7.png

MReD数据集和任务介绍

为了构建实验数据集,我们先从 OpenReview 的平台上抓取了 ICLR 会议 2018 至 2021 年中的 7894 篇论文。经过删选,我们保留了其中 7089 篇同时拥有同行评审(peer reviews)和其对应主席评审(meta-reviews)的文章来组成我们的 MReD 数据集。详情如下图所示。

d83dbb7359aaa9ffdba90dc3361b9eef.png

我们雇佣了 12 位专业的数据标注员对以上选中的 7089 篇主席评审进行了逐句标注(共 23675 句)。根据主席评审每一句的功能性以及上下文的背景,标注员把每一个句子标注为以下 9 个类别之一:

acd4c5ef60ddaf78cbd78cfb396cd02b.png

在标注的每个流程中我们都进行了严格的质量把关。每个批次我们都会抽查标注数据,不过关的标注会被要求通篇重标,直到合格为止。每个句子由两位不同的标注员各自标注,最终我们取得的标注一致性指数(Cohen's kappa)为 0.778。最后一个流程则是将之前标注不一致

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值