[实体关系抽取｜顶刊论文]PRGC:Potential Relation and Global Correspondence Based Joint Relational Triple Extra

来日可期Dream

已于 2023-12-09 19:37:58 修改

阅读量2.1k

点赞数 20

文章标签：自然语言处理知识图谱语言模型

于 2023-12-09 19:37:45 首次发布

本文链接：https://blog.csdn.net/Dream__Y/article/details/134896648

版权

文章介绍了一种新的联合关系三元组抽取框架PRGC，它通过分解任务为关系判断、实体抽取和主客体对齐，解决了冗余性和泛化性问题。PRGC利用潜在关系预测、序列标记和全局对应策略提高效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction

深圳大学电子信息工程学院 | ACL 2021 | 原文链接 | 源码链接

基于潜在关系和全局对应的联合关系三重提取

BackGround

对于过去的方法，存在关系预测的冗余性，跨度提取的泛化性，效率地下的问题。由此为解决以上问题，将其分解为三个子任务：关系判断、实体抽取、主客体对其，提出了一种基于潜在关系和全局应对的联合关系三元组抽取框架按PRGC。设计一个了一个预测潜在关系的组件，提取的关系限制在设定的关系子集，应用一个关系特性的序列标记组件来处理主体和客体之间的重叠问题，最后设计了一个全局的通信组件，将主体和客体对齐为三元组。

主要工作内容

设计了一个全新的方式，将任务分解为三个子任务：

关系判断，识别句子中的关系
实体提取，抽取句子中的所有主语的宾语
主语宾语对其：对齐成三元组

对于上图中的CasRel方法，三元组分为了两个阶段，将对象应用于所有关系，但是这种方式是冗余的，存在大量无效操作，而基于区间的抽取方案，只关注于实体的起始位置，泛化能力差。而且对于主语宾语的对齐方式。对于主语和宾语的对齐方案，只能一次处理一个主语，效率低且部署难。
对于TPLinker的方法中，为了避免对齐的曝光偏差，使用了较为复杂的编码器，标签稀疏，收敛速度低，基于跨域的提取存在关系冗余和泛化能力差的问题。（在句子的每个关系下对主题和对象进行对齐，分别造成关系判断的极端冗余和主题-对象对齐的复杂性。同时也存在基于跨度的提取方法的不足。）

PRGC由三个部分组成：

不保留所有的冗余关系，减低计算的复杂度，使用序列标记组件Rel-Spec去抽取主语与宾语，去处理重叠的问题。设计了一个独立于关系的组件来确定主语与宾语在三元组之中是否有效。

潜在关系预测
关系特定序列标记
全局对应

给定一个句子，PRGC首先预测一个潜在关系的子集和一个包含所有主语和主语之间对应分数的全局矩阵;然后对每个潜在关系进行序列标记，并行提取主题和对象;最后列举所有预测的实体对，然后用全局对应矩阵对其进行修剪。

PRGC模型

Encoder

使用一个预训练的BERT【理论上也可以使用Glove，RoBERTa】
PRGC Encoder的输出为Yenc(S) = {h1, h2，…， hn|hi∈Rd×1}，其中d为嵌入维数，n为令牌个数。

Decoder

Potential Relation Prediction 潜在关系预测组件

如上图橙色模块，对关系进行筛选，只需要对于潜在的关系进行实体抽取。对于n个token的句子中，给定embedding， $\in \mathbb{R}^{n\times d}$ ，构建的每个元素为。d将其建模为一个多标签二元分类任务，只需对预测的关系进行realtion-specific sequence tagging。

Relation-Specific Sequence Tagging 关系特定序列标记

在得到 $R^{pot}$ 后（潜在关系的关系特定的句子），进行两个序列操作，分别提取主语和宾语，进而处理主语宾语重叠的问题。

其中， $u_j \in \mathbb{R}^{d \times 1}$ 是可训练嵌入矩阵 $\in \mathbb{R}^{n\times d}$ 中的第j个关系表示，其中nr是全关系集的大小， $h_j \in \mathbb{R}^{d \times 1}$ 是第I个记号的编码表示， $W_{sub},W_{obj}∈\mathbb{R}^{d \times 3}$ 是可训练权值，其中标签集{B, I, O}的大小为3。