近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但仍然具有挑战性,因为识别与共享实体的重叠关系具有内在的困难。以前的研究表明,联合学习可以带来显著的性能提升。然而,它们通常涉及顺序相关的步骤,并遭受暴露偏差的问题。在训练时,它们利用地面的真实条件进行预测,而在推理时则需要从零开始进行提取。这种差异导致误差累积。为了缓解这一问题,本文提出了一种单阶段联合提取模型,即TPLinker,该模型能够发现共享一个或两个实体的重叠关系,同时不受暴露偏差的影响。TPLinker将联合提取归结为标记对连接问题,并引入了一种新的握手标记方案,该方案将实体对的边界标记对齐在每种关系类型下。实验结果表明,TPLinker在重叠和多关系抽取方面表现明显更好,并在两个公共数据集上达到了最先进的性能。
1. 介绍
从非结构化文本中提取实体和关系是自动知识库构建的关键步骤。传统的流水线方法首先提取实体提及,然后对候选实体对之间的关系类型进行分类。但是,由于实体检测和关系分类完全分离,这些模型忽略了两个子任务之间的相互作用和相关性,容易产生级联错误。
在过去的几年里,建立联合模型同时提取实体和关系的研究越来越受到关注。最近的研究表明,联合学习方法可以有效地整合实体和关系的信息,因此在两个子任务中都取得了更好的性能。Zheng et al.(2017)提出了一种统一的标记方案,将联合提取转化为序列标记问题,但缺乏识别重叠关系的优雅性:一个实体可能参与同一文本中的多个关系。
在处理实体对重叠EntityPairOverlap (EPO)和单实体重叠SingleEntiyOverlap (SEO)情况时,现有的大多数模型可以分为两类:基于解码器的和基于分解的。基于解码器的模型使用编码器-解码器架构,其中解码器每次提取一个单词或一个元组,就像机器翻译模型一样。基于分解的模型首先区分所有可能涉及目标关系的候选主体实体,然后为每个提取的主题标注相应的实体和关系。
虽然这些方法都取得了不错的效果,但是都有同样的曝光偏差问题。对于基于解码器的方法,在训练时,ground truth token作为上下文,而在推理时,整个序列由结果模型自己生成,因此由模型生成的前一个token作为上下文。因此,训练和推理时的预测token来自不同的分布,即来自数据分布而不是模型分布(Zhang et al., 2019)。同样的,基于分解的方法在训练过程中使用gold主体实体作为特定输入引导模型提取客体和关系,而在推理过程中,输入头实体由训练过的模型给出,导致训练与推理之间存在差距。
在本文