ACL2019_Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers


论文


摘要

从输入段落中提取多个实体关系的最新解决方案总是需要对输入进行 multiple-pass编码。本文提出了一种新的解决方案,该方案在输入语料库上只需一次编码即可完成多实体关系抽取任务,并在ACE 2005基准测试中获得了最新的准确率性能。我们的解决方案建立在预先训练的自我关注模型(Transformer)之上。因为我们的方法使用单次遍历来一次计算所有关系,所以它很容易扩展到更大的数据集;这使得它在现实世界的应用程序中更有用。

1.介绍

关系抽取的目的是从输入段落中找出一对实体提及之间的语义关系。对于许多下游的NLP应用例如自动知识库补全、知识库问答,以及视觉问题回答的符号方法等来说,对这项任务解决方案的研究是必不可少的。

RE任务的一种特殊类型是多重关系提取(MRE),其目的是从输入段落识别多对实体提及的关系。在实际应用中,由于输入段落主要包含多对实体,因此能够有效解决MRE的方案具有更重要和更实际的意义。然而,几乎所有用于MRE任务的现有方法都采用单关系提取(SRE)方法的一些变体,该方法将每对实体提及视为独立的实例,并且需要对多对实体进行多次编码。这种方法的缺点很明显-它的计算成本很高,当输入段落很大时,这个问题变得更加严重,当编码步骤涉及深层模型时,使得这个解决方案不可能实现。

本文提出了一种解决方案,该方案只需对输入进行一次编码,即可解决现有MRE解决方案的低效多遍问题,极大地提高了效率和可扩展性。具体地说,提出的解决方案建立在现有的基于transformer的、预先训练的通用语言编码器之上。在这篇文章中,我们使用Transformers(BERT)的双向编码器表示作为基于transformer的编码器,但这种解决方案并不局限于仅使用BERT。对原BERT体系结构的两个新的改进是:(1)引入结构化预测层来预测不同实体对的多个关系;(2)使自关注层知道所有实体在输入段落中的位置。

提出的这种解决方案是目前第一个有希望解决MRE任务的,且在ACE 2005 数据集上进行实验证明,其具有高效率(一次性编码输入)和有效性(达到目前最好的效果)。

2.背景

MRE是一项重要的任务,因为它是许多下游任务(如自动知识库完成和问答)的重要先行步骤。流行的MRE基准包括ACE和ERE。在MRE中,以文本段落 x = { x 1 , . . . , x N } x=\left\{ x_1,...,x_N \right\} x={ x1,...,xN} M M M提到 e = { e 1 , . . . , e N } e=\left\{ e_1,...,e_N \right\} e={ e1,...,eN}作为输入,目标是预测每个提及对 ( e i , e j ) \left( e_i,e_j \right) (ei,ej)的关系 r i j r_{ij} rij,该关系 r i j r_{ij} rij要么属于预定义关系列表 R R R的一个类别,要么落入指示没有关系的特殊类别 N A NA NA。本文将“实体提及”、“提及”和“实体”互换使用。

现有的MRE方法要么基于特征和模型体系结构选择技术,要么基于领域适配方法。但这些方法需要对段落进行多次编码,因为它们将一个MRE任务视为一个SRE任务的多次编码。

3. 提出的方法

提出的单次(one-pass)编码MRE解决方案,是建立在BERT的基础上,具有一个结构化预测层,使BERT能够通过一次编码预测多种关系,以及一个实体感知自我注意(entity-aeare Self-Attention)机制,以将每一层隐藏状态的多个实体的关系信息注入其中。模型框架如图1所示。值得一提的是,我们的解决方案可以很容易地使用除BERT之外的其他基于transformer的编码器。

在这里插入图片描述

3.1 基于Bert的MRE结构化预测

BERT模型已成功地应用于各种自然语言处理任务。然而,原始模型中使用的最终预测层不适用于MRE任务。MRE任务本质上要求在一个以实体为节点的图上执行边预测,首先使用Bert对输入段落进行编码。

因此,一对实体提及 ( e i , e j ) \left( e_i,e_j \right) (ei,ej)的表示可以分别表示为 o i o_i oi o j o_j oj。在 e i e_i ei由多个隐藏状态组成的情况下(由于字节对编码),通过最后一个BERT层中的对应token的隐藏状态上进行平均池化得到 o i o_i oi。然后,我们将 o i o_i oi o j o_j oj连接起来,表示为 [ o i : o j ] \left[ o_i:o_j \right] [oi:oj],并将其传递给线性分类器以预测关系。
P ( r i j ∣ x , e i , e j ) = s o f t max ⁡ ( W L [ o i : o j ] + b )    ( 1 ) P\left( r_{ij}|x,e_i,e_j \right) =soft\max \left( W^L\left[ o_i:o_j \right] +b \right) \ \ \left( 1 \right) P(rijx,ei,ej

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

All in .

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值