摘 要 实体关系联合抽取的目的是从非结构化文本中同时提取实体提及和关系事实,是知识图构建的关键步骤,也是许多自然语言处理中高级任务的基础.现有工作大都采用了分阶段的联合抽取方法来处理文本中同时存在的多个三元组和实体重叠情况下的三元组抽取问题,虽然取得了合理的性能提升,但都存在严重的曝光偏差问题.对此,提出了一种名为融合关系表达向量(fusional relation expression embedding, FREE)的新方法,通过融合关系表达向量来有效缓解曝光偏差问题.此外,提出了一种称为条件层规范化层的新特征融合层来更有效地融合先验信息.在2个广泛使用的数据集上进行了大量对比实验,结果表明该方法相较于当前最先进的基线方法具有显著优势,可以更有效地处理各种情况,并在不牺牲效率的前提下取得了与当前针对曝光偏差问题的先进方法相当的性能.
关键词 联合抽取;曝光偏差;实体重叠三元组;融合关系表达向量;特征融合
知识图谱中的关键要素是实体和实体之间的关系[1].关系事实由有语义关系连接的实体对组成,其一般形式为(主语,关系,宾语),称为实体-关系(entity-relation)三元组(triplets).从无结构文本中抽取具有关系的实体对是自然语言处理(natural language processing, NLP)中信息抽取的一项基本任务[2-4],也是知识图谱构建(knowledge graph construction, KGC)的关键步骤[5-6].
现有的实体和关系抽取方法主要分为2类:流水线(pipeline)方法和联合抽取方法.流水线方法将任务分解为2个独立的子任务:命名实体识别[7-9]和关系抽取[10-12].该方法首先识别命名实体,然后为抽取的每一对实体选择一个关系.流水线方法的优点是简单、灵活、易于执行,可以自由地替换其中一个抽取组件而不需要考虑另一个抽取组件.然而,流水线方法忽略了这2个子任务之间潜在的相关性和相互作用[13-14],从而导致命名实体任务中的错误信息会传播到关系抽取任务中,或者来自一个任务的有用信息却未被另一个任务利用,进而影响关系抽取的效果.
近年来,