文章目录
序列标注方法与实体重叠问题
联合模型与序列标注方法
早期的信息抽取将实体抽取和关系抽取看作串联的任务,即先识别实体,再对实体间关系进行分类,实体识别过程和关系分类过程之间没有交互,这种模型被称作pipeline流水线模型。流水线模型在建模上相对更简单,但这样把实体识别和关系分类当作两个独立的任务明显会存在一系列的问题:
1.两个任务的解决过程中没有考虑到两个子任务之间的相关性,从而导致关系抽取任务的结果严重依赖于实体抽取的结果,导致误差累积的问题
2.对于一对多的问题,也就是关系重叠问题,串联模型无法提供较好的解决方案
因此,近年来有许多工作都考虑将实体识别与关系抽取任务进行联合建模,在识别实体的同时也将关系抽取出来,直接得到关系三元组,这种模型又被称作联合模型。
联合模型根据具体的方法不同还可以细分为使用共享参数的联合模型和使用序列标注的联合模型。本文将介绍几篇比较重要、值得关注的使用序列标注方法进行关系抽取的论文。
实体重叠问题
在关系抽取问题中,句子中的关系事实往往是复杂的。不同的关系三连词在一个句子中可能有重叠,这就是实体重叠问题,目前解决关系抽取中实体重叠问题的最好方法就是序列标注方法。在论文 Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism 中,作者将句子按照三重重叠程度分为三种类型,分别是Normal, EntityPairOverlap (EPO)和SingleEntityOverlap (SEO)。
如上图所示,如果一个句子的三元组都没有重叠的实体,那么它就属于普通类。如果它的一些三元组有重叠的实体对,那么这个句子属于EntityPairOverlap类。如果一个句子的某些三元组有重叠的实体而这些三元组没有重叠的实体对,那么这个句子就属于单列重叠类。
之后许多论文也沿用了这种重叠类型的分类方法,Normal 类是最容易解决的,而EntityPairOverlap和SingleEntityOverlap类型目前也有许多论文提出了比较好的解决方法。
Joint entity recognition and relation extraction as a multi-head selection problem
论文指出了目前的实体关系抽取任务存在的一些问题:
- 目前 State-of-the-ar