IJCAI 2020_A Relation-Specific Attention Network for Joint Entity and Relation Extraction

最新推荐文章于 2023-07-05 20:45:34 发布

All in .

最新推荐文章于 2023-07-05 20:45:34 发布

阅读量2k

点赞数 4

分类专栏：论文笔记文章标签： nlp

本文链接：https://blog.csdn.net/sunshine_10/article/details/113483433

版权

论文笔记专栏收录该内容

20 篇文章 8 订阅

订阅专栏

IJCAI 2020_A Relation-Specific Attention Network for Joint Entity and Relation Extraction

Abstract
Introduction
Problem Formulation
Methodology
Experiments
Conclusion

论文
论文代码

Abstract

实体和关系的联合抽取是自然语言处理(NLP)中的一项重要任务，其目的是从纯文本中获取所有的关系三元组。这是一个很大的挑战，因为从一个句子中提取的一些三元组可能有重叠的实体。现有的大多数方法都是先进行实体识别，然后再检测每个可能的实体对之间的关系，这通常需要进行大量的冗余操作。文章提出了一种基于关系的注意力网络(RSAN)，利用关系感知的注意机制为每个关系构建特定的句子表示，然后进行序列标注以提取其对应的头部和尾部实体。在两个公开数据集上的实验表明，模型能够有效地提取重叠的三元组，并取得了最好的性能。

Introduction

传统的关系抽取系统是将实体和关系提取作为两个独立的任务，在识别出文本中的所有实体后执行关系分类。这样的模型存在错误传播和忽略两个子任务之间的相关性的问题。
联合提取实体和关系是从非结构化文本中获取（头实体，关系，尾实体）形式的结构知识。这个过程可以促进数据挖掘和自然语言处理领域中的许多基于图的任务，如知识图的构建和图形化对话系统的建立。以往的联合学习方法在很大程度上依赖于复杂的特征工程和其他现成的NLP工具。后来的研究更多地集中在基于神经网络的模型学习上，也有一些采用参数共享策略进行联合训练。虽然这些神经网络方法的性能要好于前者，但它们在实体和关系提取上仍然是分开进行预测的，两个子任务之间的联系没有得到充分利用。
关系三元组：{π=（h，r，t）| h，t∈E，r∈R}；句子：S = {w1，w2，…，wn} 给定句子S和预定义的关系集R，联合实体和关系提取任务的目的是从S识别所有现有的三元组π。
联合提取实体和关系的发展
NovelTagging模型[2017]: 模型将这两个任务合并为单个序列标记问题。但是，一个单词不能分配多个标记，因此模型无法提取具有重叠实体的三元组(参见下图)。
在这里插入图片描述
其中，SEO：SingleEntityOverlap，单一实体重叠；EPO：EntityPairOverlap，实体对重叠。
为了解决重叠的问题，提出了许多以实体为指导的联合学习方法：
PA-LSTM[2019年]和ETL-Span[2020]：作为第一步，它们进行头部实体识别，并制定一些联合解码策略来提取相应的尾部实体和关系。
CopyRE [2018] 和 HRL [2019]：提出了一种关系制导的联合抽取过程，将关系分类作为其模型的第一步。这是因为关系通常是由句子的语境触发的，而不是由目标实体触发的。例如，句子中的“出生于”这样的描述将直接指向出生地。因此，关系信息可以首先作为先验知识引入，减少了模型对语义无关实体的关注，避免了对它们的冗余抽取操作。然而，CopyRE和HRL只是简单地利用关系分类的结果作为实体抽取的指导，而忽略了细粒度的语义。
本文认为，在不同的关系下，词语对句子的深层语义表达应该有不同的贡献。基于这一假设，使用注意力机制为句子中的关系词赋予较高的权重。
本文提出了一种基于关系的注意力网络(RSAN)，用于联合实体和关系抽取。使用基于关系的关注度来构建每个关系下的特定句子表示，然后进行序列标注来提取其对应的实体。该模型不仅能够捕捉词的细粒度语义特征，而且通过将抽取任务分解为不同关系的独立实体标注过程，有效地解决了重叠问题。此外，使用关系门来降低实体识别中不相关关系带来的噪声。在训练过程中，进一步使用了关系级负采样策略，避免了大部分冗余的解码过程。综上所述，本文的主要贡献如下：
1.提出了一种联合实体和关系抽取模型RSAN，该模型融合了关系的细粒度语义信息来指导实体识别过程。RSAN适合于提取重叠的三元组，因为它分别对不同的关系进行实体提取。
2.应用基于关系的注意机制构建不同关系下的不同句子表征，提出了一种关系门控机制，自适应地控制为实体解码提供的关系信息。
3.采用关系负抽样策略进行训练，在两个公开数据集上取得了最好的结果，证明了该模型的有效性。

Problem Formulation

我们将关系三元组描述为{π=（h，r，t）| h，t∈E，r∈R}和一个句子S={w1，w2，…，wn}，其中E和R分别是实体集和关系集，三元组π表示实体对(h，t)和它们之间的关系r，Wi是句子中的第i个词。在给定一个句子S和一个预定义的关系集R的情况下，联合实体和关系抽取任务的目的是从S中识别出所有现有的三元组π。注意，所提取的三元组可能共享相同的实体或关系，即重叠问题。因此，设计一种联合提取模型来克服这一问题是本文的一大挑战。

Methodology

在这一部分中，将首先介绍标记方案，它将重叠的三元组提取任务转化为几个序列标记问题。在此基础上，详细阐述了基于一定关系的特定关系注意力网络的具体实现。

Tagging Scheme

将三元组中的头部和尾部{H，T}合并到典型的Bies符号(Begin、Inside、End、Single)中作为我们的实体标记。对于具有多个三元组的句子，我们将根据不同的关系生成单独的标记序列。在特定关系的标记序列中，只有其对应的头部和尾部实体将被标注，而其余的单词将被分配标签O。下图显示了提取方法的示例。
在这里插入图片描述
句子中有两个三元组： (Donald Trump, President of, United States)和(Donald Trump, Born in, New York City)，将分别对关系President of和Born in中的人进行序列标记，这两个三元组有重叠的实体Donald Trump，基于单独的标记操作，可以无冲突地提取它们。此外，当多个三元组共享同一关系，即关系重叠情况时，按照 [Zheng et al., 2017]并应用启发式最近原则来合并实体对，即将最近的头部和尾部实体组合成一个三元组。

Relation-Specific Attention Network

下图给出了在特定关系Rk下的RSAN的概述。提取的实体将直接与当前关系Rk结合，因此在模型中没有额外的关系分类操作。首先使用双向长短期记忆(BiLSTM)网络对输入句子进行编码，然后应用注意机制来构建特定的句子表征。经过关系门过滤后，句子的最终表示将被用于序列标注过程，以提取对应的实体。
在这里插入图片描述

BiLSTM Layer

给定长度为n的句子
在这里插入图片描述

第i个词的表示
在这里插入图片描述
其中三项分别是随机初始化词嵌入、词性嵌入、是基于字符的词特征。
通过在wi字符序列上运行的卷积神经网络(CNN)来提取字符级单词特征。然后，我们选择BiLSTM来捕获单词的依存关系。将单词表示序列{x1，x2，…，xn}作为BiLSTM网络的输入。将xi的前向和后向LSTM隐藏状态串联起来，作为上下文词表示：
在这里插入图片描述
然后，我们使用

来表示上下文级句子特征。

Relation-Based Attention Mechanism

根据假设，句子中的词在不同的关系下扮演着不同的角色。为此，提出了一种基于关系的注意机制，为每种关系下的上下文词赋予不同的权重。注意力得分如下：
在这里插入图片描述
其中sg是句子的全局表示。
这样，注意力得分不仅可以衡量每个词对关系表达的重要性，还可以衡量它对整个句子的贡献。
然后通过句子词的加权和生成关系类型RKIS下的特定句子表示，

Relational Gated Mechanism

到目前为止，已经得到了融合了关系信息的句子表示。如前所述，只有当关系对句子是正的时，面向关系的表示才对后续的实体提取有意义，而不相关关系的表示只会混淆后续的解码过程。为了自适应地控制上一关注层提供的关系信息，我们提出了一种门控机制作为桥梁。仍然以第k个关系为例，选通运算定义如下：
在这里插入图片描述
其中w1、w2、w3、b1、b2、b3是参数，⊕是串联运算，以及⊙是点积。σ表示基于元素的Sigmoid激活函数，该函数返回值从0到1，因此可以将结果视为要保留的信息百分比。上述第一个式子的目的是测量固有语句表示sg和基于关系的表示sk中的哪一个对于实体提取更有用。UK是保留的关系功能。我们将hi和uk连接起来以获得第i个单词的最终表示。
在这里插入图片描述
因此句子被表示为

在这里插入图片描述
并用于实体提取过程。

Relation-Specific Entity Decoder

作为实体解码器，执行特定于关系的序列标记过程。这里，对单词序列Sk运行另一个BiLSTM网络，并将每个单词映射到标签空间：
在这里插入图片描述

Training

值得注意的是，与R的大小相比，句子中存在的关系数量要少得多。如果在训练过程中对所有给定的关系进行实体解码，则会出现大量的负样本，这使得收敛变得困难。因此，采用了关系否定抽样策略，即从当前句子的否定集合中随机选择nneg关系。这里nneg是一个超参数。因为没有基于这些负关系的三元组所有单词都将被标记为O。然后，对于具有nsp正关系的句子S，模型在解码时将完全生成ns=nsp+nneg标签序列。使用负对数似然(NLL)损失函数来训练我们的模型。将关系Rk下的地面真实标号表示为
在这里插入图片描述
则NLL损失可定义为：

Experiments

DataSets

在两个广泛使用的数据集：纽约时报(NYT)和WebNLG上对模型进行了评估。NYT首先采用远程监督的方法构建，自动对齐知识库和纯文本，生成大规模的训练数据。WebNLG是由[Gardent et al.，2017]为自然语言生成(Natural Language Generation，NLG)任务创建的，所有标准句子都是由标注者编写的。为了与所有其他基线保持一致，只在每个实例中选择第一个标准句来重构语料库。下表显示了这两个数据集的统计数据。
在这里插入图片描述

Results

使用标准的Precision(Prec)、Recall(Rec)和F1分数作为评估标准。当且仅当三元组的关系类型和两个实体完全匹配时，才认为该三元组被正确提取。
在这里插入图片描述
上表显示了所有比较结果。总体而言，RSAN表现优于所有其他模型。
将RSAN的优势归因于它的两个优点：(1)RSAN更加关注与关系相关的实体，排除了对冗余实体对的预测带来的错误；(2)细心的实体标注过程能够捕获实体提取和关系之间的依赖关系。
此外，RSAN在关系制导方法中也取得了更高的性能，如CopyRE，OrderRL和HRL。这是因为我们的注意力机制包含了细粒度的关系信息，这使得我们能够更明确地指导实体提取过程。

Analysis

Ablation Study

一次移除一个成分来观察它对实验结果的影响，如下表所示。
在这里插入图片描述
(1)词性嵌入输入层有效地为句子提供了额外的句法信息。
(2)字符级嵌入有助于为OOV词提供先验知识。
(3)为了验证基于关系的注意机制的使用，不再构造关系注意语句表示SK，而是用关系编码的Rk代替公式中的Sk。也就是说，尝试直接使用关系编码作为实体抽取的指导。结果表明，该模型的精度明显下降。使用关系编码简单地学习了三元组的浅层共现，实现了更多的三元组预测，但模型的精度较低。相反，注意机制可以捕捉到句子中细粒度的语义关系特征，这使得正负关系的区分更加明显。
(4)对于关系门组件，省略了公式的运算，明确使用了句子表征SK，忽略了否定关系可能产生的影响。发现结果有所降低，这表明关系门控机制有助于降低不相关关系带来的噪声。

Parameter Analysis

在每一次训练迭代中，对句子的负负关系进行随机抽样，目的是在模型的收敛速度和泛化性能之间取得平衡。很明显，构造更多的负样本可以提高模型的稳健性，但不需要依赖较高的负值来实现这一点。实际上，随着随机抽样次数的适当设置，几乎所有句子的负关系都会随着迭代次数的增加而被覆盖。因此，超参数nneg应该有一个上界，当nneg大于这个上界值时，模型的性能就不再有改善。在NYT数据集中有24种关系类型，平均每句有1.44个正向关系类型。因此，我们尝试在{1，2，4，6}中选择nni，这是一个基于平均正关系数量的合适范围。图4显示了在不同的nneg值下，验证集上的F1分数随训练周期变化的曲线。可以观察到，当nneg=4或6时，收敛和预测性能几乎没有差别。因此，对于NYT数据集，我们将nneg=4作为上界，这样既能保证模型的有效性，又能加快训练过程。
在这里插入图片描述

Analysis on Overlapping Cases

为了验证RSAN提取多个三元组的能力，在NYT数据集上进行了进一步的实验。测试句子根据不同的重叠情况分为三类，即Normal、SingleEntityOverlay(SEO)和EntityPairOverlay(EPO)。如下图：
在这里插入图片描述
然后，验证几个最新模型在每个类别上的性能。结果如下图：

RSAN在重叠情况下的性能优于所有其他方法，尤其是对于EPO类。我们将改点放在实体对重叠的三元组只有不同的关系，因此我们对每个关系的单独预测可以有效地处理这种情况。另一个观察结果是，ETL-Span在正常类中取得了最好的性能。这是因为它的分解策略设计得更适合于正常情况，而我们的RSAN在重叠类中的表现要好得多。
除此之外，还比较了这两种模型提取句子中多个三元组的能力。将纽约时报测试集的句子分为5类，分别表示其三元组的个数为1、2、3、4和≥5。结果如下图所示：
在这里插入图片描述
可以看出，与其他模型相比，该模型在提取多个三元组方面有了很大的改进。此外，随着句子中三联体数的增加，RSAN表现出更稳定的性能。这两个额外的实验充分证明RSAN模型在处理复杂提取情况方面的优势。

Conclusion

为联合实体和关系提取任务提出了一种RSAN的关系注意力序列标记框架；将重叠的三元组提取问题分解为几个特定于关系的实体标记过程；应用注意机制将细粒度的关系信息合并为实体提取的指导；采用关系门减少实体识别中不相关关系带来的噪声。

All in .

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
10
评论
IJCAI 2020_A Relation-Specific Attention Network for Joint Entity and Relation Extraction

IJCAI 2020_A Relation-Specific Attention Network for Joint Entity and Relation ExtractionAbstractIntroductionProblem FormulationTrigger Matching NetworksTrigger Encoding & Semantic MatchingTrigger-Enhanced Sequence TaggingInference on Unlabeled Sentenc
复制链接

扫一扫