文章目录
实体关系抽取简介
实体关系抽取作为文本挖掘和信息抽取的核心任务,其主要通过对文本信息建模,自动抽取出实体对之间的语义关系,提取出有效的语义知识。其研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。随着近年来对信息抽取的兴起,实体关系抽取问题进一步得到广泛关注和深入研究。
关系抽取任务
实体关系抽取作为信息抽取的重要任务,是指在实体识别的基础上,从非结构化文本中抽取出预先定义的实体关系。实体对的关系可被形式化描述为关系三元组〈e1,r,e2〉,其中,e1 和 e2 是实体,r 属于目标关系集 R{r1,r2, r3,…,ri}。关系抽取的任务是从自然语言文本中抽取出关系三元组〈e1,r,e2〉,从而提取文本信息。
关系抽取使用的主要方法
经典的实体关系抽取方法主要分为有监督、半监督、弱监督和无监督这 4 类,使用机器学习方法来进行关系抽取。经典方法存在特征提取误差传播问题,极大影响实体关系抽取效果。随着近些年深度学习的崛起,关系抽取任务研究的重点转向了使用深度学习方法。基于深度学习的实体关系抽取方法与经典抽取方法相比,其主要优势在于深度学习的神经网络模型可以自动学习句子特征,无需复杂的特征工程。本文重点围绕深度学习来深入探讨实体关系抽取方法。
基于深度学习实体关系抽取主要分为有监督和远程监督两类。在有监督中,解决实体关系抽取的方法可以分为流水线学习和联合学习两种:流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系的抽取;联合学习方法主要是基于神经网络的端到端模型,同时完成实体的识别和实体间关系的抽取。与有监督实体关系抽取相比,远程监督方法缺少人工标注数据集,因此,远程监督方法比有监督多一步远程对齐知识库给无标签数据打标的过程,而构建关系抽取模型的部分,与有监督领域的流水线方法差别不大。
基于深度学习的有监督方法
流水线模型
基于流水线的方法进行关系抽取的主要流程可以描述为:针对已经标注好目标实体对的句子进行关系抽取,最后把存在实体关系的三元组作为预测结果输出。一些基于流水线方法的关系抽取模型被陆续提出,这些模型主要是基于 RNN,CNN,LSTM 及其改进模型的网络结构。
(1)基于RNN的流水线模型
在深度学习刚兴起的一段时间有学者使用RNN尝试来进行关系抽取,但由于RNN模型自身存在诸多问题,例如容易出现梯度消失、梯度爆炸;内部结构复杂,网络训练周期较长。所以使用RNN的论文非常少,很快便被CNN和LSTM模型取代。
(2)基于CNN的流水线模型
CNN在关系抽取中的使用比较广泛
Relation classification via convolutional deep neural network[1]
该论文使用CNN来提取词汇级特征(lexcial level features)和句子级特征(sentence level features)。同时还提出了位置特征(PF,position features),来编码当前词与目标词对的相对距离,该论文中的实验证明位置特征是比较有效的特征。之后的很多论文都沿用了该论文提出的位置特征。
论文提出的模型整体架构如下:
包括三层结构:Word Representation、Feature Extraction、Output。不需要复杂的语法和语义的处理,系统输入就是有两个标记名词的句子。首