达摩院文档级关系抽取新SOTA和零样本关系抽取新任务

4f7666df06160986329b3bbf922745fb.gif

©作者 | 邴立东、谭清宇、谢耀赓

单位 | Alibaba DAMO, NUS, SUTD

引言

关系抽取(RE)是 NLP 的核心任务之一,是构建知识库、事件抽取等下游应用的关键技术。多年来受到研究者的持续关注。本文将介绍达摩院语言实验室多语言算法团队的两篇 ACL Findings 2022 论文。

第一篇论文聚焦于文档级关系抽取,我们的模型在 DocRED 排行榜上将 SOTA F1 值提高了 1.36,Ign_F1 值提高了 1.46。第二篇论文提出了零样本句子级关系抽取的新任务,旨在解决现有的任务设定不能泛化到陌生关系上的问题。具体地,我们提出了 RelationPrompt 方法来为陌生关系生成训练样本,进而训练抽取器。RelationPrompt 还可以作用于零样本关系分类任务,取得了平均优于基线算法 10 个点的 F1。

712c33063930369665ee479d98e72f39.png

基于自适应Focal Loss和知识蒸馏的文档级关系抽取


本小节工作来自论文:Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation, in ACL Findings 2022.

d4cffc5bee3ae616c462afed5946bc56.png

论文链接:

https://arxiv.org/abs/2203.10900

数据代码:

https://github.com/tonytan48/KD-DocRE

1.1 背景介绍

关系抽取,Relation Extraction from Text,简称 IE,是从自然语言文本中,抽取出实体之间的关系。传统的关系抽取方法主要是抽取单个句子间两个实体的关系,这一任务被称为句子级别关系抽取。然而,在真实的应用场景中,大量的实体关系是由多个句子联合表达的,因此,文档级别的关系抽取相对于句子级别更加具有应用价值 [1]。

具体的任务定义为:给定一个文档 D,其中的实体数目为 N,模型需要预测所有实体对之间的关系,总共需要做 N(N-1)个实体对的关系分类。

目前,文档级别的关系抽取依然面临四个方面的挑战:

第一,大部分文档级别的实体关系横跨多个句子,关系抽取模型需要捕捉更长的上下文信息。

第二,同一文档中包含大量实体,文档级别关系抽取需要同时抽取所有实体间的关系,其复杂度与文档中的实体数成平方关系,分类过程中存在大量的负样本。

第三,文档级别关系抽取的样本类别属于长尾分布,以清华大学发布的 DocRED 数据集为例,频率前十的关系占到了所有关系的 60%,而剩下的 86 种关系只占全部关系三元组的 40%。

第四,由于文档级别的数据标注任务较难,现有的数据集中人工标注的训练数据十分有限。大量的训练数据为远程监督 [2] 的训练数据,而远程监督的数据中存在大量的噪音,限制模型的训练。

1.2 模型介绍

鉴于以上的挑战,我们提出了一个基于知识蒸馏的半监督学习框架,和一个新的关系抽取的模型。

cd933ed447958920d8b29a725a05e310.png

▲ 图1.1 模型概况

如上图所示,在前人工作 ATLOP 模型 [3] 的基础上,我们提出的模型主要提供了三个新的模块,第一,我们利用轴向注意力机制 [4] 来提取实体对表示之间的相互关系,如上图所示,图中的红色部分代表实体对(e3,e6)的相关区域,例如假设 e3 为杭州,e6 为亚洲,而中间实体 e8 为中国,那么(e3 杭州, e6 亚洲, 大洲)这一关系可以通过(e3 杭州, e8 中国,国家)这一三元组和(e8 中国,e6 亚洲,大洲)这一三元组联合推理得到。

第二,为了缓解关系抽取数据中的样本不平衡的问题,受 Focal Loss [5] 启发,我们提出使用 Adaptive Focal Loss 来提高模型在长尾关系上的表现,具体形式为缩放高频关系的概率输出以及放大一些低频关系的概率输出,详细的方法在文章的章节 2.2.2 中。

第三,我们在训练过程中利用知识蒸馏的机制来过滤远程监督数据中的噪音。DocRED 数据集中包含大量的远程监督的数据,传统的方法仅采用远程监督数据进行预训练,而忽略了远程监督数据中的噪音,我们将这一基准方法记为 Naïve Adaptation(NA),作为对比我们将知识蒸馏 [6] 的方法记为 KD,我们首先利用 DocRED 的少量人工标注训练数据训练一个老师模型,再利用这个老师模型,对于所有的远程监督数据进行预测,其输出的概率分布会被作为软标签。

接下来我们会基于这些软标签,和远程监督数据中带有噪音的标签训练一个结构相同学生模型,学生模型的训练过程中有两个损失函数,第一个就是之前提到的 Adaptive Focal Loss,用来学习远程监督数据中的标签。第二个就是基于老师模型输出的软标签计算的均方误差(MSE),这一损失函数可以尽可能让学生模型的输出更接近于老师模型,这两个损失函数将会被相加并共同训练。最后,所训练得到的学生模型会进一步在人工标注的数据中进行微调,得到我们的最终模型。

1.3 实验分析

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值