​GPLinker:基于GlobalPointer的实体关系联合抽取

GPLinker是基于GlobalPointer的实体关系联合抽取模型,解决了关系抽取中三元组抽取的复杂度问题。通过五元组打分函数、简化分解和稀疏版多标签交叉熵损失函数,实现了高效训练和预测。模型与TPLinker有相似之处,但使用GlobalPointer减少计算量和内存占用,提高了训练速度和解码效率。
摘要由CSDN通过智能技术生成

c3a4ea331630ff46057ed42bf47214b6.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

两年前,在百度的“2019 语言与智能技术竞赛”(下称 LIC2019)中,笔者提出了一个新的关系抽取模型(参考《基于 DGCNN 和概率图的轻量级信息抽取模型》),后被进一步发表和命名为“CasRel”,算是当时关系抽取的 SOTA。然而,CasRel 提出时笔者其实也是首次接触该领域,所以现在看来 CasRel 仍有诸多不完善之处,笔者后面也有想过要进一步完善它,但也没想到特别好的设计。

后来,笔者提出了 GlobalPointer 以及近日的 Efficient GlobalPointer,感觉有足够的“材料”来构建新的关系抽取模型了。于是笔者从概率图思想出发,参考了 CasRel 之后的一些 SOTA 设计,最终得到了一版类似 TPLinker 的模型。

a443ae329f588c2b26b0cba3046cdf49.png

基础思路

关系抽取乍看之下是三元组 (即 subject, predicate, object)的抽取,但落到具体实现上,它实际是“五元组” 的抽取,其中 分别是 的首、尾位置,而 则分别是 的首、尾位置。

从概率图的角度来看,我们可以这样构建模型:

1. 设计一个五元组的打分函数 ;

2. 训练时让标注的五元组 ,其余五元组则 ;

3. 预测时枚举所有可能的五元组,输出 的部分。

然而,直接枚举所有的五元组数目太多,假设句子长度为 , 的总数为 ,即便加上 和 的约束,所有五元组的数目也有

2222ce474057fb623c666f3ac9483ceb.png

这是长度的四次方级别的计算量,实际情况下难以实现,所以必须做一些简化。

03c6348354497d7420ac4c1e16371fd2.png

简化分解

以我们目前的算力来看,一般最多也就能接受长度平方级别的计算量,所以我们每次顶多能识别“一对”首或尾,为此,我们可以用以下的分解:

要注意的是,该等式属于模型假设,是基于我们对任务的理解以及算力的限制所设计出来的,而不是理论推导

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>