实体-关系联合抽取:Incremental Joint Extraction of Entity Mentions and Relations

论文地址:https://www.aclweb.org/anthology/P14-1038.pdf

文章标题:Incremental Joint Extraction of Entity Mentions and Relations(增量联合提取提及的实体和关系)ACL2014

Abstract

提出了一种增量联合框架,利用结构感知器和有效的集束搜索同时提取提及的实体和关系。新框架采用了基于半马尔可夫链思想的基于分段的解码器,与传统的基于标记的标记方法不同。此外,通过不精确搜索,我们开发了一些新的和有效的全局特性作为软约束来捕获提及的实体和关系之间的相互依赖性。在自动内容提取(ACE)1语料库上的实验表明,我们的联合模型显著优于强流水线方法基线,该基线的性能优于最佳端到端系统。

一、Introduction

在这里插入图片描述
图一:端到端的实体提及和关系抽取

端到端实体提及和关系提取的目的是从非结构化文本中发现实体提及的关系结构。该问题被人为地分解为实体提及边界识别、实体类型分类和关系提取等几个部分。虽然采用这样的流水线方法可以使系统相对容易地进行组装,但是它有一些限制:首先,它禁止组件之间的交互。上游组件中的错误在没有任何反馈的情况下传播到下游组件。其次,它将问题过度简化为多个本地分类步骤,而没有对远程和跨任务依赖关系进行建模。相反,我们把这个任务重新表述为一个结构化的预测问题,以揭示隐藏结构的语言和逻辑属性。例如,在图1中,每个句子的输出结构可以解释为一个图,其中提到的实体是节点,关系是带有关系类型的有向弧。通过联合预测结构,我们的目标是通过捕获(一)两个任务之间的交互来解决上述限制。例如,在图1a中,虽然提取器很难预测“1400”是一个人(PER),但是上下文单词“雇用”在“轮胎制造商”和“1400”之间强烈地表明了一个雇佣组织(EMP-ORG)的关系,它必须包含PER的提及。(二)隐藏结构的全局特征。各种实体提及和关系共享语言和逻辑约束。例如,我们可以使用图1b中的三角形特征来确保“部队”之间的关系,每个实体都提到“索马里/GPE”、“海地/GPE”和“科索沃/GPE”是同一类型的(Physical(PHYS),在本例中)。

根据上述直觉,我们引入了一个基于结构化感知器的联合框架(Collins, 2002;Collins和Roark, 2004)使用集束搜索同时提取实体提及和关系。得益于不精确的搜索,我们还能够以较低的成本使用任意的全局特性。该算法已成功地应用于其它一些自然语言处理(NLP)任务。我们的任务不同于依赖项解析(如(Huang和Sagae, 2010)),因为关系结构更灵活,每个节点可以有任意的关系弧。我们之前的工作(Li et al., 2013)使用基于标记的标记感知器模型来联合提取事件触发器和参数。相比之下,我们的目标是解决一个更具挑战性的任务:识别提及边界和类型以及关系,这就提出了一个问题,即具有不同提及边界的相同句子的分配在搜索期间很难同步。为了解决这个问题,我们采用了一种基于分段的译码算法(Sarawagi and Cohen, 2004; Zhang and Clark, 2008)基于半马尔可夫链的思想(a.k.a, multiple-beam search algorithm)。

之前关于实体提及和关系的联合推理的尝试(如Roth和Yih, 2004;Roth和Yih, 2007))假设实体提及边界已经给出,提及和关系的分类器是分别学习的。作为一个关键的区别,我们使用单个模型逐步提取实体提及和关系。本文的主要贡献如下:

  • 这是第一个使用单个联合模型增量预测实体提及率和关系的工作(第3节)。
  • 联合框架中提及边界的预测提出了在同一集束中同步不同任务的挑战。我们通过在节段级检测实体提及来解决这个问题,而不是使用传统的基于标记的方法(第3.1.1节)。
  • 我们设计了一组新颖的全局特征,这些特征基于低成本的整个输出图结构的软约束(第4节)。

实验结果表明,该框架比流水线方法具有更好的性能,全局特征进一步提高了性能。

二、Background

2.1 Task Definition

我们正在处理的实体提及提取和关系提取任务是那些自动内容提取(ACE)程序。ACE定义了7种主要实体类型,包括人员(PER)、组织(ORG)、地理实体(GPE)、位置(LOC)、设施(FAC)、武器(WEA)和车辆(VEH)。关系抽取的目的是提取目标类型在同一句子中出现的一对实体提及之间的语义关系。ACE ’ 04定义了7种主要关系类型:物理关系(PHYS)、人-社会关系(PER- soc)、就业-组织关系(EMP-ORG)、代理-工件关系(ART)、单位/组织关系(Other-AFF)、gpe - attachment (GPE-AFF)和话语关系(DISC)。ACE’05保留了PER-SOC、ART和GPE-AFF,将PHYS分成PHYS和一个新的关系类型Part-Whole,去除DISC,将EMP-ORG和Other-AFF合并成EMP-ORG。

在这篇论文中,我们使用(特殊符号)表示非实体或非关系类。我们认为关系是不对称的。同一关系类型具有相反的方向被认为是两个类,我们称之为有向关系类型。

以往关于关系提取的研究大多假设在本文中给出了实体提及,我们的目标是解决从原始文本中端到端实体提及和关系提取的问题。

2.2 Baseline System

为了开发代表最先进的流水线方法的基线系统,我们训练了一个线性链条件随机场模型(

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值