©作者 | 程丽颖、鲍建竹、邴立东、徐睿峰
单位 | 阿里巴巴达摩院、鹏城实验室
简介
大多数现有论辩挖掘的任务是基于单一文本进行抽取,如法律文件、议论文等。现有的基于多文本的论辩挖掘仅限于论坛上的在线讨论或辩论。近年来由于论文投稿量的增加,以及开源可供研究使用的审稿意见(review)数据的出现,针对审稿意见的论辩挖掘研究逐渐受欢迎。然而,作为在审稿周期中非常重要的作者回复(rebuttal),却没有被研究者充分重视。事实上,审稿意见与其回复在内容和结构上有着密不可分的联系,天然构成一对立论和反驳的文档对。
所以本文介绍的第一个工作,即 APE,提出了一个针对审稿意见与其回复的论辩对挖掘的新任务和新数据集。本文介绍的其他三篇工作又陆续针对该任务,在第一个工作的基准模型的基础上分别提出了新模型,在同一个数据集上取得了更好的结果。
该任务和数据集曾被用于阿里巴巴达摩院和复旦大学共同组织的 NLPCC 2021 “面向智能辩论的论辩文本理解”的评测任务比赛。另外,本文中介绍的几种针对论辩对挖掘的模型结果可参见以下链接。这些模型可以被广泛应用于辩论相关的场景、论辩挖掘以及篇章级别信息抽取的研究中。
https://paperswithcode.com/sota/argument-pair-extraction-ape-on-rr
APE任务和数据集介绍
1.1 APE任务介绍
论辩对抽取(Argument Pair Extraction,APE),是对话式论辩领域的一个新任务,目的是从两篇相关的文章中抽取互动的论点对。下图是一个 APE 的例子,来自 Review-Rebuttal 数据集,左边是论文的审稿意见(review),右边是作者的回复(rebuttal)。两篇文章在句子级别上被划分为论点和非论点。有颜色的为论点,没有颜色的为非论点。Review 中的论点可以与 rebuttal 中的论点形成论辩对,表示它们在讨论同一问题。在这个例子中,两个论点对分别用绿色和蓝色标注出。
APE 是一项非常有挑战的任务,原因有两个:1)从数据的层面看,不同于常见的抽取任务,本任务所面对的文本非常长,并且是两篇文章。2)从任务定义的层面看,不同于传统的论辩关系预测任务,本任务需要首先抽取出论点,然后再判断论点间的关系。
1.2 Review-Rebuttal(RR)数据集介绍
关于 Review-Rebuttal(RR)数据集,我们从 openreview.net 网站爬取了 ICLR会议 2013-2020 年间(2015 年除外)投稿的相关数据,并筛选出 4,764 对审稿意见和回复。数据统计如上图所示。我们共标注了 40831 条论点,其中审稿意见中的论点有 23150 条,作者回复的论点有 17681 条。每对论点的共享词汇的比例仅有 9.9%,进一步说明了该数据集的挑战性。
我们将 RR 数据集按每篇审稿和每篇论文两种粒度划分训练/验证/测试集,得到两个数据集,RR-passage 和 RR-submission。在本文提到的第二个工作中,我们在 RR-submission 做了一点小改动得到 RR-submission-v2 数据集。本文展示的实验结果主要是在 RR-submission 和 RR-submission-v2 上得到的。
数据集链接:
https://github.com/LiyingCheng95/ArgumentPairExtraction/tree/master/data
APE: 审稿意见与回复中的论辩对挖掘及多任务训练模型
论文标题:
APE: Argument Pair Extraction from Peer Review and Rebuttal via Multi-task Learning
收录会议:
EMNLP 2020
论文链接:
https://aclanthology.org/2020.emnlp-main.569.pdf
数据代码:
https://github.com/LiyingCheng95/ArgumentPairExtraction
2.1 简介
根据前文提到的背景,本篇论文提出了一个针对审稿意见与其回复的论辩对挖掘的新任务。同时我们基于此任务创建了一个完全标注的新数据集,可被应用于相关任务的研究。另外,我们针对此任务提出了一个多层长短期记忆结构的多任务训练模型,有效地结合了两个子任务。
2.2 模型结构
在本篇论文中,我们将论辩对挖掘的任务分成两个子任务:(1)论辩挖掘&#