摘要
实体提取和关系提取都可以通过联合执行,使得每个任务都能纠正彼此的错误。 现有的大多数联合方法都是单独提取实体和关系,通过参数共享实现联合学习,但这种方式会导致输出实体和关系之间的信息不能被充分利⽤。在本文中,作者通过设计⼀种图方案将联合任务转换为有向图,并提出了⼀种基于转换的方法来生成有向图,通过联合解码来实现联合学习。 这种方法不仅可以对实体和关系之间的潜在依赖关系建模,还可以对关系之间的潜在依赖关系建模。
1 介绍
关系抽取任务传统上作为两个独立子任务的管道来解决,即实体识别和关系提取。这种分离的方法忽略了这两个子任务之间的相关性。 实体和关系的联合提取可以整合实体和关系的信息,并在此任务上取得了较好的效果。 联合模型目前前已经采用了两种方法——统计模型和神经网络模型进行了研究 ,其中统计模型的性能严重依赖于复杂的特征工程,难以利用全局特征。
相比之下,神经⽹络模型的效果更好。然而,大多数现有的神经模型分开提取实体和关系,仅通过参数共享实现联合学习,而不是联合解码。由于没有使用显式特征来建立output-output 依赖关系,导致无法充分利用输出实体和关系之间的信息。还有⼀种新颖的标注方案是将联合提取任务转化为标注问题。在他们的联合模型中,实体和关系的信息被集成到⼀个统⼀的标记方案中,并且可以被充分利用。但是,由于转换为标记任务,该方法仅间接捕获输出的结构对应关系,并且⽆法识别重叠关系。
为此,作者通过设计⼀种图⽅案将联合任务转换为有向图,使⽤基于转换的解析框架解决。这种方法不仅可以对实体和关系之间的底层依赖关系建模,还可以对关系之间的底层依赖关系建模。本文的主要贡献总结如下:
- 提出了⼀种直观的图⽅案来联合表示实体和关系,以便端到端关系提取可以轻松转换为类似解析的任务
- 提出了⼀种新的转换系统来生成有向图。 此外还设计了⼀种特殊的递归神经⽹络,以更好地对基础的实体关系和关
系之间的依赖进⾏建模。 - 作者在纽约时报 (NYT) 语料库上进⾏实验,结果表明此方法优于最先进的end-to-end⽅法。
2 问题定义
2.1 基线 : 标签约束
Zheng et al.将联合抽取任务作为序列标签问题,提出了⼀种新颖的标签方案。图 2 是标记方案的⼀个示例。标签“O”意味着对应的词独⽴于提取的实体和关系。除“O”外,其他标签由三部分组成:词在实体中的位置、关系类型和关系角色。它使⽤“BIES”(Begin、Inside、End、Single)符号来表示⼀个词在实体中的位置信息。关系角色由数字“1”和“2”表示,其中“1”表示该词属于关系中的第⼀个实体,“2”表示该词属于第⼆个实体,如图2所示。基于此标记方案,Zheng et al. 为序列标记问题开发了⼀个具有偏置损失函数的端到端模型。但是,