Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation

作者: Qingyu Tan∗1,2 Ruidan He†1 Lidong Bing1 Hwee Tou Ng2

单位:1DAMO Academy, Alibaba Group;2Department of Computer Science, National University of Singapore

通讯地址:{qingyu.tan,ruidan.he,l.bing}@alibaba-inc.com;{qtan6,nght}@comp.nus.edu.sg

发表会议:ACL2022

目录

Abstract

Introduction

Methods

Limitations

Ours

Methodology

Problem Formulation

Model Architecture

Experiments

Dataset Statistics


Abstract

文档级关系抽取相比句子级别的关系抽取式一个更有挑战性的任务,因为文档级别一次从几个句子中抽取关系。本文中,我们提出了一个带有三个新组件的半监督方法用于文档级别的关系抽取。首先,我们用axis attention模块学习实体对之间的依赖关系。第二,我们提出了一个自适应的焦点损失来解决DocRE中类的不平衡问题。最后,我们利用知识蒸馏来克服人工标注数据与远程监督数据之间的差异。

Introduction

文档级关系抽取(DocRE)问题是信息抽取和自然语言处理研究的一个重要问题。DocRE任务旨在提取文档中多个实体之间的关系。DocRE任务在以下几个方面比句子级任务更具挑战性:(1)DocRE任务的复杂性随实体数量的增加呈二次曲线增长。如果一个文档包含n个实体,则必须对n(n - 1)个实体对进行分类决策,且大多数实体对不包含任何关系。(2)除了正例和负例的不平衡外,正例对关系类型的分布也非常不平衡。以DocRED数据集为例,共有96种关系类型,其中前10种关系占所有关系标签的59.4%。这种不平衡显著增加了文档级RE任务的难度。

Methods

大多数现存的DocRE方法利用依赖信息构建文档级别的图,然后利用图神经网络进行推理。另一种流行的方案是仅使用transformer架构。这些预训练架构可以自己学习长距离关系而不需要图推理就可以实现SOTA性能。

Limitations

1. 现存的方法关注实体对的句法特征,而忽略了实体对之间的交互作用。 Zhang et al. (2021) and Li et al. (2021)已经使用CNN结构对实体对之间的交互进行编码,但是CNN结构不能捕获two-hop推理路径内的所有元素。

2. 目前还没有工作可以直接的解决类的不平衡问题。现存的工作仅仅关注阈值学习来平衡正例和负例,但正例内部的类不平衡问题并没有得到解决。

3. 最后,关于将远程监督数据应用于DocRE任务的研究很少。Xu等人(2021)已经表明,远程监督数据能够提高文档级关系提取的性能。然而,它只是单纯地使用远监督数据对正则模型进行预训练。

Ours

1. 提出使用一个axial attention模块作为特征抽取器去提升two-hop()关系的推理能力。

2. 提出自适应焦点损失来解决标签分配不平衡的问题。提出的损失函数鼓励long-tail(不均衡)类在总的损失中占比较多。

3. 使用知识蒸馏来克服标注数据和远程监督数据之间的差异。具体来说就是使用少量的注释数据训练教师模型。然后用教师数据对大量远程监督数据进行预测,然后生成的预测作为软标签来训练学生网络。最后,再使用人工标注的数据来调整学生模型。

Methodology

Problem Formulation

Model Architecture

 从上图可以看出,半监督学习的框架主要有三个方面组成:1、表征学习;2、自适应焦点损失;3、用于远程监督预训练的知识蒸馏。首先使用预训练模块去抽取每个实体对的上下文表示,然后通过axis attention去编码实体对之间的内部依赖。然后使用前馈神经网络去后去logit并计算它们的损失。用我们提出的自适应焦点损失,以更好地学习从long-tail类。最后,我们利用知识蒸馏来克服人工标注数据与远程监督数据之间的差异。

Representation Learning

Entity Representation:本文中使用了一个BERT预训练模型作为编码器。对于一个长度为l的文档D=[x_{t}]_{t=1}^{l}。然后使用预训练模型来获取该文档的上下文嵌入。如果文档长度超出了预训练模型的最大长度,那么文档将被编码成重复的块,并计算重复块上下文嵌入的平均值。用于表示实体提及的标记"*"的嵌入作为他的嵌入并表示成h_{m_{j}}。然而对于每个提到的\{m_j^i\}_{j=1}^{N_{e_{i}}}的实体e_{i},其中N_{e_{i}}是实体e_i提到的次数,它的全局表是通过logsumexp池化获得。

Context-enhanced Entity Representation:由于上下文信息对关系分类任务至关重要,这里还采用了 Zhou et al.(2021)提出的上下文池化方法。对于每个实体e_i,首先通过平均池化A_{e_i}=\sum_{j=1}^{N_{e_{i}}}(a_{m_{j}}),其中a_{m_{j}}\epsilon \mathbb{R}^{H\times l}是实体提及m_{j}位置的自注意力权重,H是自注意力的头数,l是文档的长度。查询文本(query)被表示为如下公式3,4。

 其中A_{es}\epsilon \mathbb{R}^{H \times l}是实体e_{i}的聚合注意力输出,q^{s,o}\epsilon \mathbb{R}^{l}是实体对(e_{s},e_{o})的平均池化注意力权重,H\epsilon \mathbb{R}^{l \times d}是整个文档的上下文嵌入。然后将上下文向量c^{(s,o)} \epsilon \mathbb{R}^d与实体表示融合。公式5中的z_s表示的是实体对(e_s,e_o)的主体s的上下文增强表示,然后使用同样的方式获取z_{o}

Entity Pair Representation:本文使用组合的双线性函数用于特征结合。我们将前一步得到的z_sz_o分成k个相同尺寸的组,例如z_s = [z_{s}^{1},z_s^2,\dots,z_s^k],公式如下。

其中W_{g_{i}}^{j}\epsilon \mathbb{R}^{d/k\times d/k}g^{s,o}\epsilon \mathbb{R}^d是最终获得的实体对表征。

 对于具有n个实体的给定文档D,我们需要对n(n - 1)个实体对排列进行分类。为了帮助我们对所有的实体对及其位置进行编码,我们使用Rn×n×d矩阵G来表示文档D的所有实体对,在训练和推断时忽略第n×n索引的对角线。

Axial Attention-Enhanced Entity Pair Representation:我们提出使用两跳注意(two-hop attention)对实体对表示的轴向相邻信息进行编码,而不是仅仅使用头尾嵌入进行关系分类。虽然之前已有研究使用卷积神经网络(cnn)对相邻信息进行编码以进行关系分类(Zhang等人,2021年),我们认为,关注轴向元素更有效和直观。在一个n × n的实体表中,对于实体对(e_{s},e_{o}),关注它的轴向元素对应于关注(e_{s},e_{i})(e_i,e_o)的元素。也就是说,如果一个两跳关系(e_{s},e_{o})可以分解为一条路径(e_{s},e_{i})(e_i,e_o),那么用于分类(e_{s},e_{o})的信息最多的邻居是与这个实体对共享es或eo的单跳候选对象。沿高度轴和宽度轴的轴向注意力简单地通过自我注意来计算,并且沿轴的每一次计算之后都有一个残差连接。 

 

其中, query为 q_{(i,j)}=W_{Q}g^{(i,j)} ,key为 k_{(i,j)}=W_{K}g^{(i,j)} ,value为 v_{(i,j)}=W_{V}g^{(i,j)} ,他们是所有(i,j)位置上面的线性表示 g 。其中所有的W都是d*d维的矩阵。这里使用softmax函数是为了关注two-hop关系元组的one-hop邻居。

 Adaptive Focal Loss

最后,我们使用一个线形层预测关系。

 其中 l^{s,o}\epsilon \mathbb{R}^{c} 表示所有关系的输出对数分数。W_{l}\epsilon \mathbb{R}^{d \times c} 是权重矩阵用于将每个关系映射到每个类logit分数,c是类的数量。

 我们的关系抽取问题本质上是一个多标签分类问题。传统上,二元交叉熵(BCE)损失被用来解决这个问题。然而,该方法依赖于全局概率阈值进行推理。最近,自适应阈值损失(Adaptive Thresholding Loss)(ATL, Zhou等人,2021)被提出用于多标签分类。ATL没有对所有示例使用全局概率阈值,而是引入了一个特殊类 TH 作为每个示例的自适应阈值。对于每个实体对 (e_s,e_o) ,logits大于TH类的类将被预测为正例,剩下的被预测为负例。我们提出了AFT(Adaptive Focal Loss)作为对ATL的提升用于不平衡类。我们的损失有两部分组成,第一部分是正例,第二部分是负例。在训练时将标签空间分成正例子集 P_{T} 和负例子集 N_{T} 。正类子集包含实体对 (e_s,e_o) 中存在的关系,如果实体对不存在关系,则 P_{T} 为空。负类子集包含不属于正例的关系。

其中 \gamma 是超参数,这个损失函数的设计就是为了关注低信度的类。如果 P(r_{i})较低,则相关类的贡献较高,这将大大有利于不平衡类。

Knowledge Distillation for Distant Supervison

在本节中,我们将描述如何以更有效的方式利用远监督数据。DocRed数据集(Yao等人,2019年)中的远程监督数据是通过对Wikidata知识库(Vrandeˇci´c和Krötzsch, 2014年)执行实体链接和维基百科数据转储获得的。研究表明,从远程监督数据进行预训练有利于文档级关系的提取(Xu et al., 2021)。然而,以前的工作只是以一种朴素的方式适应远监督数据。远程监督适应的关键挑战是克服远程监督数据与人工标注数据的概率分布之间的差异。我们比较了两种适应远监督数据的策略。

Naive Adaptation: 该方法来自(Xu et al., 2021),首先使用具有关系提取损失 \zeta _{RE} (Eqn. 11)的远程监督数据对模型进行预训练,然后对具有相同目标的人工标注数据进行微调。我们称这种方法为朴素适应。

Knowledge Distillation: 为了进一步利用带注释的数据,我们使用一个在带注释的数据(表1中的#Train)上训练的关系分类模型作为教师模型。教师模型用于在远程监督数据上生成软标签。具体来说,远程监督数据被输入到教师模型中,而预测的logits将是用于训练学生模型的软标签。学生模型与教师模型具有相同的配置,但同时使用两个信号进行训练。第一个信号是来自远监督数据的硬标签的监督,第二个信号来自预测的软标签。我们表示在硬标签上计算的损失为 \zeta _{RE} ,在软标签上计算的知识蒸馏损失为\zeta _{KD}。我们使用均方误差(mean squared error, MSE)作为知识蒸馏损失函数:

其中,l_{S}^{(s,o)}  为学生模型的预测对数,l_{T}^{(s,o)} 为教师模型的预测。在远程监督数据上对学生模型进行了预训练之后,再使用人类注释的数据(表1中的#Train)对其进行进一步微调。使用远程监督数据进行训练前的总体损失计算为(13)。

Experiments

Dataset Statistics

 

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hithithithithit

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值