目录
论文链接:https://arxiv.org/pdf/2106.09895.pdf
摘要:
前人研究存在问题:关系预测的冗余、基于跨度的提取的泛化性差和效率低下;
本文方法:将该任务分解为三个子任务,关系判断、实体提取和主客对齐;
提出了一种基于潜在关系和全局对应关系(PRGC)的联合关系三元组提取框架;
方法详细介绍:
首先:设计了一个预测潜在关系的组件,该组件将接下来的实体提取限制在预测的关系子集上,而不是所有关系;
然后:应用特定关系的序列标记组件来处理主、客体之间的重叠问题;
最后: 设计了一个全局通信组件,将主实体和客实体对齐为一个低复杂度的三元组;
性能:PRGC在公共基准测试中以更高的效率实现了最先进的性能,并在重叠三元组的复杂场景中提供了一致的性能增益;
源代码和数据发布 :https://github.com/hy-struggle/PRGC
1 绪论
以前的一些工作建议使用流水线方法解决该任务,其中包括两个步骤:
命名实体识别 (Tjong Kim Sang and De Meulder, 2003; Ratinov and Roth, 2009) 和关系预测 (Zelenko et al., 2002; Bunescu and Mooney 2005,Pawar et al., 2017; Wang et al., 2020b).
近期端到端方法:最近基于多任务学习(Wei et al., 2020)或单阶段框架(Wang et al., 2020a)的端到端方法取得了可喜的性能并证明了它们的有效性,但缺乏对任务的深入研究。
作者的新的视角解决问题:将任务分解为三个子任务:
i)关系判断,旨在识别句子中关系;
ii)实体提取,旨在提取句子中的主实体和客实体;
iii) 主宾对齐,旨在将实体对对齐为三元组;
在此基础上,我们回顾了表 1 中的两种端到端方法。
下表中方法回顾:
CasRel (Wei et al., 2020) 的多任务方法:
关系三元组提取分为两个阶段执行,将对象提取应用于所有关系;
不足:关系识别的方法是冗余的,其中包含大量无效操作,基于span的提取方案只关注实体的起始/结束位置,导致泛化效果差;
并且,由于其主题-对象对齐机制,限制了一次只能处理一个主题,效率不高,部署困难。
对于单阶段框架TPLinker(Wang 等人,2020a):
不足:为了避免主客对齐中的曝光偏差,它利用了一个相当复杂的解码器,该解码器导致稀疏标签和低收敛速度,而基于跨度的提取的关系冗余和泛化性差的问题仍未解决;
解决问题:
为了解决上述问题,我们提出了一个端到端框架,该框架由三个组件组成:潜在关系预测、特定于关系的序列标记和全局对应,它们相应地完成了三个子任务,如下表所示。
具体实施方案:
关系判断:作者通过潜在关系预测组件来预测潜在关系,而不是保留所有冗余关系,这降低了计算复杂度并获得了更好的性能,尤其是当数据集中有很多关系时(例如,WebNLG 数据集 (Gardent et al., 2017) 有数百个关系,但一个句子只有七个有效关系);
实体提取:作者使用更健壮的 Relation-Specific Sequence Tagging 组件(简称 Rel-Spec Sequence Tagging)来分别提取主体和客体,自然地处理主体和客体之间的重叠;
主客对齐:与使用基于关系的token对矩阵的TPLinker 不同,我们设计了一个与关系无关的全局对应矩阵来确定特定的主客对在三元组中是否有效;
首先:给定一个句子,PRGC 首先预测一个潜在关系的子集和一个包含所有主体和客体之间的对应得分的全局矩阵;
然后:执行序列标记以并行提取每个潜在关系的主体和客体;
最后:枚举所有预测的实体对,然后通过全局对应矩阵对其进行修剪。
值得注意的是,实验(在第 5.2.1 节中描述)表明 PRGC 的潜在关系预测组件总体上是有益的,即使它引入了之前单阶段方法中通常提到的暴露偏差。
实验结果表明,PRGC 在公共基准上优于最先进的方法,具有更高的效率和更少的参数。
在包含单实体重叠(SEO)、实体对重叠(EPO)和主体对象重叠(SOO)(有关重叠模式的更多详细信息,请参见附录 A)类型的各种重叠模式的复杂场景上的详细实验表明,我们的方法具有一致的优势。
本文的主要贡献如下:
新颖的方法:我们从一个新颖的角度处理关系三重提取任务,将任务分解为三个子任务:关系判断、实体提取和主客对齐,并在提出的范式的基础上比较了以前的工作,如上表所示;
方法的实施:根据我们的观点,我们提出了一种新颖的端到端框架,并针对子任务设计了三个组件,这极大地缓解了冗余关系判断、基于跨度的提取泛化能力差和主客体对齐效率低下的问题;
方法的性能:我们在几个公共基准上进行了广泛的实验,这表明我们的方法实现了最先进的性能,特别是对于重叠三元组的复杂场景。进一步的消融研究和分析证实了我们模型中每个组件的有效性;
方法的优势:除了更高的准确性外,实验表明,与以前的工作相比,我们的方法在复杂性、参数数量、浮点运算 (FLOP) 和推理时间方面具有显着优势。
2 相关工作
传统pipeline方法:
传统上,关系三元组提取被研究为两个独立的任务:实体提取和关系预测:早期的工作(Zelenko et al., 2002; Chan and Roth, 2011)应用流水线方法在提取所有实体后执行实体对之间的关系分类。Bekoulis et al.(2018)提出首先提取所有候选实体,然后预测每个实体对的关系作为一个多头选择问题,共享参数但不共同解码。
Wei 等人(2020)提出了一个级联框架,它首先识别一个句子中所有可能的主体,然后对于每个主体,应用基于跨度的标记器来识别基于每个关系的相应客体。该方法导致关系判断的冗余,并且由于实体提取的基于跨度的方案不鲁棒,同时,主客体的排列方式限制了它的平行化;
最先进的方法 TPLinker (Wang et al., 2020a) 采用了一个token对链接方案,该方案执行两个 矩阵运算来提取实体并将主体与每个关系下的客体对齐一个句子,分别导致关系判断的极端冗余和主客对齐的复杂性,它也存在基于跨度的提取方案的缺点;
联合模型方法:
先前的基于特征的联合模型(Yu 和 Lam,2010;Li 和 Ji,2014;Miwa 和 Sasaki,2014;Ren 等,2017)需要复杂的特征工程过程,并且依赖于各种 NLP 工具和繁琐的手动操作;
近年来,减少人工干预的神经网络模型一直是研究的重点:Zheng等(2017)提出了一种新的标注方案,统一了实体在标注中的作用和实体之间的关系,将联合抽取任务转化为序列标注任务,但未能解决重叠问题;
Nayak和Ng(2020)采用了编码器-解码器架构和基于指针网络的解码方法,其中每个时间步生成一个完整的三元组;
为了明确表示三元组的关系,Yuan 等人(2020)提出了一种关系特定的注意力来为每个关系下的上下文中的单词分配不同的权重,但它应用了一种朴素的启发式最近邻原则来组合实体对,这意味着最近的主体和客体实体将被组合成三元组,这显然不符合直觉和事实,同时,在关系判断上也存在冗余。
3 方法
在本节中,我们首先介绍我们对关系三元提取任务的问题定义,然后详细说明 PRGC 模型的每个组件。 PRGC的概述图如下图所示:
(PRGC的整体结构。给定一个句子 S,PRGC 预测潜在关系子集 集和一个全局对应关系 M,表示主客体之间的对齐。然后对于每个潜在的关系,构造一个关系特定的句子表示用于序列标记。最后,枚举所有可能的主客对,得到了这个特定示例的四个候选三元组,但在应用全局对应约束后,只剩下两个三元组(标记为红色))
3.1 问题定义
输入:一个带有 n 个token的句子;
期望的输出: 关系三元组,如,其中 E 和 R 分别是实体集和关系集。
本文将问题分解为三个子任务:
关系判断:对于给定的句子 S,这个子任务预测它包含的潜在关系;
该任务的输出是 ,其中 m 是潜在关系子集的大小。
实体提取:
对于给定的句子 S 和预测的潜在关系 ,该子任务使用 BIO(即Begin、Insize和Outside)标记方案识别每个token的标签(Tjong Kim Sang 和 Veenstra,1999;Ratinov 和 Roth, 2009),让 表示标签;
这个任务的输出: (每个关系中token 的标签)
主客对齐:
对于给定的句子 S,这个子任务预测主体和客体的起始标记之间的对应分数。这意味着只有真正三元组的起始标记对具有高分,而其他标记对具有低分,令 M 表示全局对应矩阵;
该任务的输出是。
3.2 PRGC编码器
PRGC Encoder 的输出是 ,其中 d 是嵌入维度,n 是token数;
作者使用预训练的 BERT 模型 (Devlin et al., 2019) 对输入句子进行编码以进行公平比较,但理论上它可以扩展到其他编码器,例如 Glove (Pennington et al., 2014) 和RoBERTa(刘等人,2019)
3.3 PRGC解码器
在本节中,我们描述了由三个组件组成的 PRGC 解码器的实例化。
3.3.1 潜在关系预测
该组件在上图中显示为橙色框,其中 是潜在关系。
不同于以往的工作(Wei et al., 2020;袁等,2020;Wang et al., 2020a)对每个关系进行冗余的实体提取,给定一个句子,作者首先预测可能存在于句子中的潜在关系的子集,然后只需要对这些潜在关系进行实体提取。给定含有n个token的句子的嵌入,则该组件的每个元素可得到:
其中 Avgpool 是平均池化操作 (Lin et al., 2014), 是可训练的权重,σ 表示 sigmoid 函数;
我们将其建模为一个多标签二元分类任务,如果概率超过某个阈值 λ1,对应关系将被分配标签 1,否则将被分配标签 0(如上图所示),所以接下来我们只需要将特定于关系的序列标记应用于预测的关系而不是所有关系。
3.3.2 特定关系的序列标记
如上图所示,我们获得了 3.3.1 节中描述的潜在关系的几个特定于关系的句子表示;
然后,我们执行两个序列标记操作来分别提取主体和客体;
作者分别提取主体和客体的原因是为了处理称为主客体重叠(SOO)的特殊重叠模式;
如果数据集中没有 SOO 模式(例如,SOO 模式在 NYT (Riedel et al., 2010) 数据集中很少见),我们还可以将其简化为一个具有两种类型的实体的序列标记操作;
作者放弃了传统的 LSTM-CRF (Panchendrarajan and Amaresan, 2018) 网络,而是采用了简单的全连接神经网络。该组件对每个token的详细操作如下:
其中 是可训练嵌入矩阵 中的第 j 个关系表示,其中 是完整关系集的大小, 是第 i 个标记的编码表示,并且是标签集 {B, I, O} 的大小为 3 的可训练权重;
3.3.3 全局对应
在序列标记之后,作者获取了关于句子关系的所有可能的主体和客体;
然后作者使用全局对应矩阵来确定正确的主体和客体对;
应该注意的是,全局对应矩阵可以与潜在的关系预测同时学习,因为它独立于关系;
详细过程如下:
首先,枚举所有可能的主客对;
然后,检查每对的全局矩阵中的相应分数,如果值超过某个阈值 λ2 则保留它,否则将其过滤掉;
如上图中的绿色矩阵M所示,给定一个有n个token的句子,全局对应矩阵的形状为。
这个矩阵的每个元素都是关于一对主客体的起始位置,它代表了一个主客体对的置信度,值越高,该对属于三元组的置信度越高。
例如,第 1 行第 3 列的“Tom”和“Jerry”的值如果在正确的三元组中,例如“(Tom, like, Jerry)”,则它们的值将很高。得到矩阵中每个元素的值如下:
其中 是输入句子中第 i 个token和第 j 个token的编码表示,形成了一个潜在的主客对, 是可训练的权重,并且σ 是 sigmoid 函数。
3.4 训练策略
联合训练模型,在训练期间优化组合目标函数并共享 PRGC 编码器的参数。总损失可分为以下三部分:
其中 是完整关系集的大小, 是句子潜在关系子集的大小。总损失是这三部分的总和,
通过仔细调整每个子损失的权重,性能可能会更好,但为了简单起见,作者只是分配相等的权重(即 α = β = γ = 1)。
4 实验
4.1 数据集和实验设置
在两个公共数据集 NYT(Riedel 等人,2010)和 WebNLG(Gardent 等人,2017)上评估模型,这两个数据集分别有两个版本:
将不同版本表示为 NYT*、NYT 和 WebNLG*、WebNLG;
NYT* 和 WebNLG* 注释实体的最后一个单词,而 NYT 和 WebNLG 注释整个实体跨度。
数据集的统计数据如下表所示。进一步描述了测试集 w.r.t.重叠模式和每个句子的三元组数。
根据上述先前的工作,提取的关系三元组仅在与ground truth完全匹配时才被认为是正确的,这意味着实体的最后一个词或两者的整个实体跨度(取决于注释协议)主客体及其关系都是正确的。
同时,作者报告了所有基线的标准微精度 (Prec.)、召回率 (Rec.) 和 F1 分数。实施细节见附录 B。
作者将 PRGC 与八个强大的基线模型以及最先进的模型 CasRel (Wei et al., 2020) 和 TPLinker (Wang et al., 2020a) 进行了比较。基线模型的所有实验结果均直接取自 Wang 等人(2020a)除非另有说明。
4.2 实验结果
在本节中,作者将展示总体结果和复杂场景的结果,而对应于模型中不同组件的不同子任务的结果在附录C中进行了描述。
4.2.1 总体结果
表 3 显示了模型在四个数据集上针对其他基线方法的结果。即使与最近相当复杂的最强基线(Wang et al., 2020a)相比,PRGC 方法在几乎所有评估指标方面都优于它们。
同时,作者实现了 PRGCRandom 来验证PRGC 解码器的实用性,其中编码器 BERT 的所有参数都是随机初始化的。
PRGCRandom的性能表明,即使不利用预先训练的BERT语言模型,PRGC解码器框架(比CasRelRandom提高了7%)仍然比其他解码器更具竞争力和健壮性。
需要注意的是,尽管 TPLinkerBERT 的参数比 CasRelBERT 多,但它在 WebNLG* 数据集上仅获得了 0.1% 的改进,作者将此归因于数据集本身的问题。然而,PRGC模型在 WebNLG* 数据集上比 TPLinker 实现了 10 倍的改进,并且在 WebNLG 数据集上实现了显着提升。
这背后的原因是PRGC模型的关系判断组件大大减少了冗余关系,特别是在包含数百个关系的 WebNLG 版本中。换句话说,与在每个关系下执行实体提取的模型相比,负关系的减少提供了额外的提升。
4.2.2 复杂场景的详细结果
继之前的工作(Wei et al., 2020; Yuan et al., 2020; Wang et al., 2020a)之后,为了验证PRGC模型处理不同重叠模式和具有不同三元组数量的句子的能力,作者对 NYT* 和 WebNLG* 数据集进行了进一步的实验。
如下表所示,PRGC模型在两个数据集中的所有重叠模式中都超过了所有基线,除了 NYT* 数据集中的 SOO 模式。
(具有不同重叠模式的句子的 F1 分数 (%)。粗体表示最高分,§ 表示官方实现的结果。)
实际上,由于 NYT* 中 SOO 的百分比非常低(即,如下表 所示,8,110 中有 45 条),对后一种情况的观察并不可靠。
如下表所示,无论三元组的数量如何,PRGC模型的性能几乎在每个子集中都优于其他模型。总的来说,这两个进一步的实验充分展示了PRGC模型在复杂场景中的优势。
(具有不同三元组数量的句子的 F1 分数 (%),其中 N 是句子中三元组的数量。粗体表示最高分)
5 分析
5.1 模型效率
如下表所示,作者在两个在关系集大小、每句平均关系数和每句平均被试数上有很大不同特征的数据集中,评估了CasRel、TPLinker和PRGC在复杂性、浮点运算(FLOPs) (Molchanov et al., 2017)、解码器参数(Paramsdecoder)和推理时间(FLOPs 和 Paramsdecoder 通过以下方式计算:https://github.com/sovrasov/flops-counter.pytorch)方面的模型效率。
(NYT* 和 WebNLG* 数据集上的模型效率比较。其他方法除F1-score(%)外的结果都是官方实现默认配置得到的,粗体表示最好的结果。 Complexity 是计算复杂度,FLOPs 和 Paramsdecoder 都在解码器上计算,分别以 1 和 24 的批大小测量推理时间(ms))
所有实验均使用相同的硬件配置进行。由于句子中的主题数量不同,CasRel 很难预测异构批处理中的对象,在官方实现中限制将批处理大小设置为 1(Wang 等人,2020a)。为了公平比较,作者将批量大小设置为 1 和 24,分别验证单线程解码速度和并行处理能力。
结果表明,PRGC 的单线程解码速度是 CasRel 的 2 倍和 TPLinker 的 3 倍,PRGC模型在并行处理方面明显优于 TPLinker;
CasRel 和 TPLinker 的模型效率随着关系集大小的增加而降低,但PRGC模型不受关系集大小的影响,因此 PRGC 在 WebNLG* 数据集中的所有效率指标方面都压倒性地优于这两个模型;
与最先进的模型 TPLinker 相比,PRGC 的 复杂度 低一个数量级,FLOPs 甚至低 200 倍,因此 PRGC 的参数更少,在推理阶段获得了 3 倍的加速,而 F1 - 分数提高了 1.1%。
尽管 CasRel 在 NYT* 数据集中具有较低的复杂度和 FLOP,但 PRGC 仍然具有显着优势,并且在推理时间上获得了 5 倍的加速,在 F1 分数上提高了 3%。同时,下图证明了PRGC模型在收敛率方面的优势。这些都证实了模型的有效性。
(不同方法的 WebNLG* 验证集上关于 epoch 数的 F1 分数。 CasRel和TPLinker的结果是官方实现默认配置得到的)
5.2 消融研究
在本节中,作者进行消融实验以证明 PRGC 中每个组件的有效性,结果如下表所示。
5.2.1 潜在关系预测的影响
当移除潜在关系预测组件以避免暴露偏差时,使用关系集中的每个关系来执行序列标记。
如上表所示,如果没有这个组件,精度会显着降低,因为由于句子中没有呈现关系,预测三元组的数量会增加,特别是在 WebNLG* 数据集中,其中关系集的大小要大得多,并且带来了巨大的关系冗余;
同时,随着句子中关系数的增加,训练和推理时间增加了三到四倍。通过这个实验,证明了这个旨在预测潜在关系子集的组件的有效性,这不仅有利于模型的准确性,而且有利于提高效率。
5.2.2 Rel-Spec 序列标记的效果
作为序列标记方案的比较,在Wei等人(2020)和Wang等人(2020a)之后,作者使用基于span的方案执行二元分类来检测实体的起始位置和结束位置。
如上表所示,基于跨度的方案带来性能的显着下降。
通过下图所示的案例研究,作者观察到基于跨度的方案倾向于提取长实体并识别正确的主客对,但忽略它们的关系。这是因为模型倾向于记住实体的位置,而不是理解底层语义。然而,PRGC 使用的序列标记方案在这两种情况下都表现良好,实验结果证明作者的标记方案更健壮和可推广。
(Rel-Spec 序列标记消融研究的案例研究。示例来自 WebNLG*,作者通过 WebNLG 补充整个实体跨度以方便查看。红十字标记坏情况,正确的实体以粗体显示,正确的关系以彩色显示)
5.2.3 全局对应效应
为了比较,作者利用启发式最近邻原理来组合郑等人使用的主客对。 (2017)和袁等人(2020 年)。
如上表 所示,在没有全局对应关系的情况下,精度也会显着降低,因为当模型失去该组件施加的约束时,预测三元组的数量会随着许多不匹配对的增加而增加。该实验证明全局对应组件是有效的,并且在主客对齐任务中大大优于启发式最近邻原理。
6 结论
在本文中,作者提出了一个全新的视角,引入了一种基于潜在关系和全局对应关系的新型联合关系抽取框架,极大地缓解了关系判断冗余、基于跨度的抽取泛化性差和不充分的问题 ;
出色的主客对齐。实验结果表明,PRGC模型在公共数据集中实现了最先进的性能,并成功地以更高的效率处理了许多复杂的场景。