【论文翻译】TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

最新推荐文章于 2024-05-28 14:10:27 发布

今天NLP了吗

最新推荐文章于 2024-05-28 14:10:27 发布

阅读量3.8k

点赞数 12

分类专栏：论文阅读文章标签：深度学习人工智能算法

原文链接：https://arxiv.org/abs/2010.13415

版权

TPLinker是一种单阶段模型，用于解决非结构化文本中实体和重叠关系的联合提取，解决了现有方法的曝光偏差问题。通过握手标记机制，它将任务转化为Token对链接问题，有效地提取实体和关系，尤其在处理重叠和多关系场景中表现出优越性能。

摘要由CSDN通过智能技术生成

近年来，从非结构化文本中提取实体和关系引起了越来越多的关注，但仍然具有挑战性，因为识别与共享实体的重叠关系具有内在的困难。以前的研究表明，联合学习可以带来显著的性能提升。然而，它们通常涉及顺序相关的步骤，并遭受暴露偏差的问题。在训练时，它们利用地面的真实条件进行预测，而在推理时则需要从零开始进行提取。这种差异导致误差累积。为了缓解这一问题，本文提出了一种单阶段联合提取模型，即TPLinker，该模型能够发现共享一个或两个实体的重叠关系，同时不受暴露偏差的影响。TPLinker将联合提取归结为标记对连接问题，并引入了一种新的握手标记方案，该方案将实体对的边界标记对齐在每种关系类型下。实验结果表明，TPLinker在重叠和多关系抽取方面表现明显更好，并在两个公共数据集上达到了最先进的性能。

1. 介绍

从非结构化文本中提取实体和关系是自动知识库构建的关键步骤。传统的流水线方法首先提取实体提及，然后对候选实体对之间的关系类型进行分类。但是，由于实体检测和关系分类完全分离，这些模型忽略了两个子任务之间的相互作用和相关性，容易产生级联错误。

在过去的几年里，建立联合模型同时提取实体和关系的研究越来越受到关注。最近的研究表明，联合学习方法可以有效地整合实体和关系的信息，因此在两个子任务中都取得了更好的性能。Zheng et al.(2017)提出了一种统一的标记方案，将联合提取转化为序列标记问题，但缺乏识别重叠关系的优雅性:一个实体可能参与同一文本中的多个关系。
在这里插入图片描述在处理实体对重叠EntityPairOverlap (EPO)和单实体重叠SingleEntiyOverlap (SEO)情况时，现有的大多数模型可以分为两类：基于解码器的和基于分解的。基于解码器的模型使用编码器-解码器架构，其中解码器每次提取一个单词或一个元组，就像机器翻译模型一样。基于分解的模型首先区分所有可能涉及目标关系的候选主体实体，然后为每个提取的主题标注相应的实体和关系。

虽然这些方法都取得了不错的效果，但是都有同样的曝光偏差问题。对于基于解码器的方法，在训练时，ground truth token作为上下文，而在推理时，整个序列由结果模型自己生成，因此由模型生成的前一个token作为上下文。因此，训练和推理时的预测token来自不同的分布，即来自数据分布而不是模型分布(Zhang et al.， 2019)。同样的，基于分解的方法在训练过程中使用gold主体实体作为特定输入引导模型提取客体和关系，而在推理过程中，输入头实体由训练过的模型给出，导致训练与推理之间存在差距。

在本文

最低0.47元/天解锁文章

今天NLP了吗

关注

12
点赞
踩
26

收藏

觉得还不错? 一键收藏
4
评论
【论文翻译】TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

近年来，从非结构化文本中提取实体和关系引起了越来越多的关注，但仍然具有挑战性，因为识别与共享实体的重叠关系具有内在的困难。以前的研究表明，联合学习可以带来显著的性能提升。然而，它们通常涉及顺序相关的步骤，并遭受暴露偏差的问题。在训练时，它们利用地面的真实条件进行预测，而在推理时则需要从零开始进行提取。这种差异导致误差累积。为了缓解这一问题，本文提出了一种单阶段联合提取模型，即TPLinker，该模型能够发现共享一个或两个实体的重叠关系，同时不受暴露偏差的影响。TPLinker将联合提取归结为标记对连接问题.
复制链接

扫一扫

专栏目录