【论文翻译】TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但仍然具有挑战性,因为识别与共享实体的重叠关系具有内在的困难。以前的研究表明,联合学习可以带来显著的性能提升。然而,它们通常涉及顺序相关的步骤,并遭受暴露偏差的问题。在训练时,它们利用地面的真实条件进行预测,而在推理时则需要从零开始进行提取。这种差异导致误差累积。为了缓解这一问题,本文提出了一种单阶段联合提取模型,即TPLinker,该模型能够发现共享一个或两个实体的重叠关系,同时不受暴露偏差的影响。TPLinker将联合提取归结为标记对连接问题,并引入了一种新的握手标记方案,该方案将实体对的边界标记对齐在每种关系类型下。实验结果表明,TPLinker在重叠和多关系抽取方面表现明显更好,并在两个公共数据集上达到了最先进的性能。

1. 介绍

从非结构化文本中提取实体和关系是自动知识库构建的关键步骤。传统的流水线方法首先提取实体提及,然后对候选实体对之间的关系类型进行分类。但是,由于实体检测和关系分类完全分离,这些模型忽略了两个子任务之间的相互作用和相关性,容易产生级联错误。

在过去的几年里,建立联合模型同时提取实体和关系的研究越来越受到关注。最近的研究表明,联合学习方法可以有效地整合实体和关系的信息,因此在两个子任务中都取得了更好的性能。Zheng et al.(2017)提出了一种统一的标记方案,将联合提取转化为序列标记问题,但缺乏识别重叠关系的优雅性:一个实体可能参与同一文本中的多个关系。
在这里插入图片描述在处理实体对重叠EntityPairOverlap (EPO)和单实体重叠SingleEntiyOverlap (SEO)情况时,现有的大多数模型可以分为两类:基于解码器的和基于分解的。基于解码器的模型使用编码器-解码器架构,其中解码器每次提取一个单词或一个元组,就像机器翻译模型一样。基于分解的模型首先区分所有可能涉及目标关系的候选主体实体,然后为每个提取的主题标注相应的实体和关系。

虽然这些方法都取得了不错的效果,但是都有同样的曝光偏差问题。对于基于解码器的方法,在训练时,ground truth token作为上下文,而在推理时,整个序列由结果模型自己生成,因此由模型生成的前一个token作为上下文。因此,训练和推理时的预测token来自不同的分布,即来自数据分布而不是模型分布(Zhang et al., 2019)。同样的,基于分解的方法在训练过程中使用gold主体实体作为特定输入引导模型提取客体和关系,而在推理过程中,输入头实体由训练过的模型给出,导致训练与推理之间存在差距。

在本文中,我们提出了一种用于实体和重叠关系联合提取的一阶段方法࿰

  • 12
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值