APE:基于多文本的论辩对挖掘 — 任务、数据及模型

APE任务旨在从审稿意见与回复中抽取论辩对,是一项新提出的挑战。RR数据集提供了4,764对审稿意见和回复,用于训练和评估模型。多任务训练模型、注意力机制引导的多层多交编码模型以及互指导框架与句间关系图的模型,都在该任务上取得了进展,表明多文本分析在论辩挖掘中的重要性。" 104313474,8583506,企业员工返岗统计高效解决方案,"['企业服务', '人力资源管理', '数据统计', '问卷调查', '办公自动化']
摘要由CSDN通过智能技术生成

a10752a85a786f06b1e5badedfeff2e7.gif

©作者 | 程丽颖、鲍建竹、邴立东、徐睿峰

单位 | 阿里巴巴达摩院、鹏城实验室

简介

大多数现有论辩挖掘的任务是基于单一文本进行抽取,如法律文件、议论文等。现有的基于多文本的论辩挖掘仅限于论坛上的在线讨论或辩论。近年来由于论文投稿量的增加,以及开源可供研究使用的审稿意见(review)数据的出现,针对审稿意见的论辩挖掘研究逐渐受欢迎。然而,作为在审稿周期中非常重要的作者回复(rebuttal),却没有被研究者充分重视。事实上,审稿意见与其回复在内容和结构上有着密不可分的联系,天然构成一对立论和反驳的文档对。

所以本文介绍的第一个工作,即 APE,提出了一个针对审稿意见与其回复的论辩对挖掘的新任务和新数据集。本文介绍的其他三篇工作又陆续针对该任务,在第一个工作的基准模型的基础上分别提出了新模型,在同一个数据集上取得了更好的结果。

该任务和数据集曾被用于阿里巴巴达摩院和复旦大学共同组织的 NLPCC 2021 “面向智能辩论的论辩文本理解”的评测任务比赛。另外,本文中介绍的几种针对论辩对挖掘的模型结果可参见以下链接。这些模型可以被广泛应用于辩论相关的场景、论辩挖掘以及篇章级别信息抽取的研究中。

https://paperswithcode.com/sota/argument-pair-extraction-ape-on-rr

f7e2e11da84625684a81cf8b14d60a4c.png

APE任务和数据集介绍

1.1 APE任务介绍

论辩对抽取(Argument Pair Extraction,APE),是对话式论辩领域的一个新任务,目的是从两篇相关的文章中抽取互动的论点对。下图是一个 APE 的例子,来自 Review-Rebuttal 数据集,左边是论文的审稿意见(review),右边是作者的回复(rebuttal)。两篇文章在句子级别上被划分为论点和非论点。有颜色的为论点,没有颜色的为非论点。Review 中的论点可以与 rebuttal 中的论点形成论辩对,表示它们在讨论同一问题。在这个例子中,两个论点对分别用绿色和蓝色标注出。

87430ac0a9692021652ccbd5a96c1390.png

APE 是一项非常有挑战的任务,原因有两个:1)从数据的层面看,不同于常见的抽取任务,本任务所面对的文本非常长,并且是两篇文章。2)从任务定义的层面看,不同于传统的论辩关系预测任务,本任务需要首先抽取出论点,然后再判断论点间的关系。

1.2 Review-Rebuttal(RR)数据集介绍

90e5de640f7bd16df1dfc30582c54d1f.png

关于 Review-Rebuttal(RR)数据集,我们从 openreview.net 网站爬取了 ICLR会议 2013-2020 年间(2015 年除外)投稿的相关数据,并筛选出 4,764 对审稿意见和回复。数据统计如上图所示。我们共标注了 40831 条论点,其中审稿意见中的论点有 23150 条,作者回复的论点有 17681 条。每对论点的共享词汇的比例仅有 9.9%,进一步说明了该数据集的挑战性。

我们将 RR 数据集按每篇审稿和每篇论文两种粒度划分训练/验证/测试集,得到两个数据集,RR-passage 和 RR-submission。在本文提到的第二个工作中,我们在 RR-submission 做了一点小改动得到 RR-submission-v2 数据集。本文展示的实验结果主要是在 RR-submission 和 RR-submission-v2 上得到的。

数据集链接:

https://github.com/LiyingCheng95/ArgumentPairExtraction/tree/master/data

6dc9ba6e3ec8f14ce42bbe371fb6087b.png

APE: 审稿意见与回复中的论辩对挖掘及多任务训练模型

d2590d0e3cdf163066c1c06dab3fa904.png

论文标题:

APE: Argument Pair Extraction from Peer Review and Rebuttal via Multi-task Learning

收录会议:

EMNLP 2020

论文链接:

https://aclanthology.org/2020.emnlp-main.569.pdf

数据代码:

https://github.com/LiyingCheng95/ArgumentPairExtraction

2.1 简介

根据前文提到的背景,本篇论文提出了一个针对审稿意见与其回复的论辩对挖掘的新任务。同时我们基于此任务创建了一个完全标注的新数据集,可被应用于相关任务的研究。另外,我们针对此任务提出了一个多层长短期记忆结构的多任务训练模型,有效地结合了两个子任务。

2.2 模型结构

在本篇论文中,我们将论辩对挖掘的任务分成两个子任务:(1)论辩挖掘&#

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值