作者: Qingyu Tan∗1,2 Ruidan He†1 Lidong Bing1 Hwee Tou Ng2
单位:1DAMO Academy, Alibaba Group;2Department of Computer Science, National University of Singapore
通讯地址:{qingyu.tan,ruidan.he,l.bing}@alibaba-inc.com;{qtan6,nght}@comp.nus.edu.sg
发表会议:ACL2022
目录
Abstract
文档级关系抽取相比句子级别的关系抽取式一个更有挑战性的任务,因为文档级别一次从几个句子中抽取关系。本文中,我们提出了一个带有三个新组件的半监督方法用于文档级别的关系抽取。首先,我们用axis attention模块学习实体对之间的依赖关系。第二,我们提出了一个自适应的焦点损失来解决DocRE中类的不平衡问题。最后,我们利用知识蒸馏来克服人工标注数据与远程监督数据之间的差异。
Introduction
文档级关系抽取(DocRE)问题是信息抽取和自然语言处理研究的一个重要问题。DocRE任务旨在提取文档中多个实体之间的关系。DocRE任务在以下几个方面比句子级任务更具挑战性:(1)DocRE任务的复杂性随实体数量的增加呈二次曲线增长。如果一个文档包含n个实体,则必须对n(n - 1)个实体对进行分类决策,且大多数实体对不包含任何关系。(2)除了正例和负例的不平衡外,正例对关系类型的分布也非常不平衡。以DocRED数据集为例,共有96种关系类型,其中前10种关系占所有关系标签的59.4%。这种不平衡显著增加了文档级RE任务的难度。
Methods
大多数现存的DocRE方法利用依赖信息构建文档级别的图,然后利用图神经网络进行推理。另一种流行的方案是仅使用transformer架构。这些预训练架构可以自己学习长距离关系而不需要图推理就可以实现SOTA性能。
Limitations
1. 现存的方法关注实体对的句法特征,而忽略了实体对之间的交互作用。 Zhang et al. (2021) and Li et al. (2021)已经使用CNN结构对实体对之间的交互进行编码,但是CNN结构不能捕获two-hop推理路径内的所有元素。
2. 目前还没有工作可以直接的解决类的不平衡问题。现存的工作仅仅关注阈值学习来平衡正例和负例,但正例内部的类不平衡问题并没有得到解决。
3. 最后,关于将远程监督数据应用于DocRE任务的研究很少。Xu等人(2021)已经表明,远程监督数据能够提高文档级关系提取的性能。然而,它只是单纯地使用远监督数据对正则模型进行预训练。
Ours
1. 提出使用一个axial attention模块作为特征抽取器去提升two-hop()关系的推理能力。
2. 提出自适应焦点损失来解决标签分配不平衡的问题。提出的损失函数鼓励long-tail(不均衡)类在总的损失中占比较多。
3. 使用知识蒸馏来克服标注数据和远程监督数据之间的差异。具体来说就是使用少量的注释数据训练教师模型。然后用教师数据对大量远程监督数据进行预测,然后生成的预测作为软标签来训练学生网络。最后,再使用人工标注的数据来调整学生模型。
Methodology
Problem Formulation
Model Architecture
从上图可以看出,半监督学习的框架主要有三个方面组成:1、表征学习;2、自适应焦点损失;3、用于远程监督预训练的知识蒸馏。首先使用预训练模块去抽取每个实体对的上下文表示,然后通过axis attention去编码实体对之间的内部依赖。然后使用前馈神经网络去后去logit并计算它们的损失。用我们提出的自适应焦点损失,以更好地学习从long-tail类。最后,我们利用知识蒸馏来克服人工标注数据与远程监督数据之间的差异。
Representation Learning
Entity Representation:本文中使用了一个BERT预训练模型作为编码器。对于一个长度为的文档
。然后使用预训练模型来获取该文档的上下文嵌入。如果文档长度超出了预训练模型的最大长度,那么文档将被编码成重复的块,并计算重复块上下文嵌入的平均值。用于表示实体提及的标记"*"的嵌入作为他的嵌入并表示成
。然而对于每个提到的
的实体
,其中
是实体
提到的次数,它的全局表是通过logsumexp池化获得。
Context-enhanced Entity Representation:由于上下文信息对关系分类任务至关重要,这里还采用了 Zhou et al.(2021)提出的上下文池化方法。对于每个实体,首先通过平均池化
,其中
是实体提及
位置的自注意力权重,
是自注意力的头数,
是文档的长度。查询文本(query)被表示为如下公式3,4。
其中是实体
的聚合注意力输出,
是实体对
的平均池化注意力权重,
是整个文档的上下文嵌入。然后将上下文向量
与实体表示融合。公式5中的
表示的是实体对
的主体
的上下文增强表示,然后使用同样的方式获取
。
Entity Pair Representation:本文使用组合的双线性函数用于特征结合。我们将前一步得到的和
分成k个相同尺寸的组,例如
,公式如下。
其中,
是最终获得的实体对表征。
对于具有n个实体的给定文档D,我们需要对n(n - 1)个实体对排列进行分类。为了帮助我们对所有的实体对及其位置进行编码,我们使用Rn×n×d矩阵G来表示文档D的所有实体对,在训练和推断时忽略第n×n索引的对角线。
Axial Attention-Enhanced Entity Pair Representation:我们提出使用两跳注意(two-hop attention)对实体对表示的轴向相邻信息进行编码,而不是仅仅使用头尾嵌入进行关系分类。虽然之前已有研究使用卷积神经网络(cnn)对相邻信息进行编码以进行关系分类(Zhang等人,2021年),我们认为,关注轴向元素更有效和直观。在一个n × n的实体表中,对于实体对,关注它的轴向元素对应于关注
或
的元素。也就是说,如果一个两跳关系
可以分解为一条路径
和
,那么用于分类
的信息最多的邻居是与这个实体对共享es或eo的单跳候选对象。沿高度轴和宽度轴的轴向注意力简单地通过自我注意来计算,并且沿轴的每一次计算之后都有一个残差连接。
其中, query为 ,key为
,value为
,他们是所有(i,j)位置上面的线性表示
。其中所有的W都是d*d维的矩阵。这里使用softmax函数是为了关注two-hop关系元组的one-hop邻居。
Adaptive Focal Loss
最后,我们使用一个线形层预测关系。
其中 表示所有关系的输出对数分数。
是权重矩阵用于将每个关系映射到每个类logit分数,c是类的数量。
我们的关系抽取问题本质上是一个多标签分类问题。传统上,二元交叉熵(BCE)损失被用来解决这个问题。然而,该方法依赖于全局概率阈值进行推理。最近,自适应阈值损失(Adaptive Thresholding Loss)(ATL, Zhou等人,2021)被提出用于多标签分类。ATL没有对所有示例使用全局概率阈值,而是引入了一个特殊类 作为每个示例的自适应阈值。对于每个实体对
,logits大于TH类的类将被预测为正例,剩下的被预测为负例。我们提出了AFT(Adaptive Focal Loss)作为对ATL的提升用于不平衡类。我们的损失有两部分组成,第一部分是正例,第二部分是负例。在训练时将标签空间分成正例子集
和负例子集
。正类子集包含实体对
中存在的关系,如果实体对不存在关系,则
为空。负类子集包含不属于正例的关系。
其中 是超参数,这个损失函数的设计就是为了关注低信度的类。如果
较低,则相关类的贡献较高,这将大大有利于不平衡类。
Knowledge Distillation for Distant Supervison
在本节中,我们将描述如何以更有效的方式利用远监督数据。DocRed数据集(Yao等人,2019年)中的远程监督数据是通过对Wikidata知识库(Vrandeˇci´c和Krötzsch, 2014年)执行实体链接和维基百科数据转储获得的。研究表明,从远程监督数据进行预训练有利于文档级关系的提取(Xu et al., 2021)。然而,以前的工作只是以一种朴素的方式适应远监督数据。远程监督适应的关键挑战是克服远程监督数据与人工标注数据的概率分布之间的差异。我们比较了两种适应远监督数据的策略。
Naive Adaptation: 该方法来自(Xu et al., 2021),首先使用具有关系提取损失 (Eqn. 11)的远程监督数据对模型进行预训练,然后对具有相同目标的人工标注数据进行微调。我们称这种方法为朴素适应。
Knowledge Distillation: 为了进一步利用带注释的数据,我们使用一个在带注释的数据(表1中的#Train)上训练的关系分类模型作为教师模型。教师模型用于在远程监督数据上生成软标签。具体来说,远程监督数据被输入到教师模型中,而预测的logits将是用于训练学生模型的软标签。学生模型与教师模型具有相同的配置,但同时使用两个信号进行训练。第一个信号是来自远监督数据的硬标签的监督,第二个信号来自预测的软标签。我们表示在硬标签上计算的损失为 ,在软标签上计算的知识蒸馏损失为
。我们使用均方误差(mean squared error, MSE)作为知识蒸馏损失函数:
其中, 为学生模型的预测对数,
为教师模型的预测。在远程监督数据上对学生模型进行了预训练之后,再使用人类注释的数据(表1中的#Train)对其进行进一步微调。使用远程监督数据进行训练前的总体损失计算为(13)。
Experiments
Dataset Statistics