融合多层注意力机制与BiLSTM的知识图谱补全算法研究

摘要

【目的】 针对目前大多数知识图谱补全算法无法兼顾局部与全局特征的问题,本文提出一种对实体间的关系路径进行层级划分,并利用双向长短期记忆网络和多层注意力机制进行特征提取的算法,以对知识图谱进行补全。【方法】 首先,结合关系路径上的实体类型和关系得到关系路径序列的向量表示;然后,利用多层注意力机制和双向长短期记忆网络分层级提取序列关键信息;最终通过计算关系路径特征向量与候选关系向量间的相似度得出预测结果。【结果】 在NELL-995和FB15k-237数据集上进行链路预测实验,结果表明,该算法与已有基于关系路径的知识图谱补全算法CNN-BiLSTM等相比,MAP值提高了1.8%,Hits@1指标提高了1.4%;在Kinship数据集上,其Hits@3值达到了0.988。【结论】 本文通过实验证明了所提出的HAN-BiLSTM算法能有效提取关系路径的整体特征和局部特征,从而提高知识图谱补全效果。

关键词: 知识图谱补全; 关系路径推理; 多层注意力机制; 双向长短期记忆网络

引言

知识图谱(Knowledge Graph, KG)是由实体(en-tity)和关系(relation)构成的语义网络,以形如(实体,关系,实体)三元组的形式描述客观物体、抽象概念之间的联系或事物的某些属性。目前已有许多大规模通用领域的知识图谱,如MeteWeb构建的Freebase, 由Bing、Google、Yahoo、Yandex等公司一同构建的语义网Schema.org,Wikipedia构建的Wikidata等,其中包含大量的事实三元组,为推荐系统、问答系统等下游应用提供了支撑[1]。然而,当前大规模知识图谱的构建往往依赖于人工或半自动的方式,通过这些方式构建的知识图谱存在着数据稀疏、三元组缺失的问题,需要进行知识图谱补全(Knowledge Graph Completion,KGC)[2]。

已有对知识图谱补全算法的研究,基本思路主要有两类:一类是基于知识嵌入的知识图谱补全算法,另一类是基于路径的知识图谱补全算法。其中,基于嵌入的算法通过把实体和关系映射进对应的低维向量空间,得到它们的矢量或矩阵表示,以便进行链接预测任务;具有代表性的模型包括TransE[3]、RESCAL[4]、DistMult和ComplEx[5]等。基于知识嵌入的算法在KGC的各个子任务上已经被证明是行之有效的。然而,此类方法多数侧重关注图谱中实体之间的直接关系,而忽视图谱中实体之间由多个实体和关系所组成的关系路径的存在。

基于路径的知识图谱补全算法常常将知识图谱补全任务转换为分类任务,主要通过将包含两个目标实体的路径作为特征,对目标关系进行学习,例如PRA[6]、Path-RNN[7]、Single-Model[8]、Att-Model[9]等。路径查找算法(Path Ranking Algorithm, PRA)证明了在两个实体之间包含关系类型的关系路径可以有效用于知识图谱补全任务,且能较好地解决多步知识推理问题。Path-RNN等模型使用循环神经网络(Recurrent Neural Network, RNN)沿这些路径进行向量化建模,把关系路径嵌入到低维向量空间,通过计算路径向量与待预测关系向量之间的相似度进行关系补全,相比PRA有效缓解了由于路径数量过多导致的特征空间膨胀问题。CNN-BiLSTM[10]模型利用双向长短期记忆神经网络(Bidirectional Long Short-Term Memory Networks, BiLSTM)[11]从正反两个方向对关系路径进行向量化建模,并提出了利用注意力机制捕捉候选关系与两个实体之间每条路径的语义相关性。然而,这些算法在两个指定实体之间存在多条关系路径时,往往认为只有相似度最大的路径对推理具有贡献或所有关系路径对推理过程具有同等的贡献,采用对路径信息进行最大池化或平均池化的处理方法,这与知识图谱的实际情况是不相符的。

事实上,如图1所示,在两个实体之间的单条关系路径上,实体和关系出现的顺序包含有价值的语义信息,如关系三元组(美国,官方语言,英语)。即使是同一个关系,当从路径的正反两个方向考虑时,对关系的推理所起到的作用也是不同的。如图所示,对于包含“官方语言”这一关系的三元组而言,当头实体确定为“美国”时,即可推理出该三元组的尾实体为“英语”;但如果仅确定尾实体为“英语”,则难以推理出头实体究竟是什么,因为将本国的官方语言规定为英语的国家实体不仅有美国一个,即“官方语言”这一关系在此处为一个多对一的关系。而当具体到某一条关系路径,如(加勒比海盗→导演→戈尔·维宾斯基→使用→英语)时,不同实体和关系的重要程度也是有差异的。也就是说,在对实体对(加勒比海盗,英语)之间缺失的关系“对白语言”进行补全时,一个实体对之间可能存在的不同关系路径在语义上所发挥的作用,其大小显然是不同的。

图1

1   两个不相邻实体之间的关系路径示意

Fig.1   Example of relation paths between two non-adjacent entities

本文提出了一种融合多层注意力机制与双向长短期记忆网络的知识图谱补全算法。该算法的创新之处在于:(1)在知识图谱补全任务中引入了多层注意力机制,把实体间的关系路径信息分为实体/关系层级和关系路径层级两个层级进行处理,在对知识图谱进行补全时兼顾了每条关系路径上的局部特征与实体之间多条关系路径的全局特征;(2)在实体/关系层级上,结合实体类型信息和关系类型,使用双向长短期记忆网络获取关系路径正反两个方向的语义信息,并使用注意力机制提取实体/关系序列的特征,得到单条关系路径的向量表示;(3)在关系路径层级上使用注意力机制,获取实体间不同关系路径与候选关系之间的语义相似程度,加权求和得到综合考虑两实体之间所有关系路径的向量表示。为验证所提出算法的效果,在四个不同的标准数据集(NELL995、FB15k-237、Kinship、Nations)上执行了链路预测任务,并将实验得到的结果与多种图谱补全方法在相同数据上的重复实验对比;对于所提出的算法本身也进行了消融实验以分析各阶段采用策略对最终结果的影响。实验结果表明,融合多层注意力机制与双向长短期记忆网络的知识图谱补全算法与以往基于关系路径的知识图谱补全算法相比,实现了对局部特征和全局特征的提取,在知识图谱补全任务中表现出了更好的性能。

1 相关工作

论文分三部分完成相关工作的综述,包括:知识图谱补全算法的研究现状;基于关系路径的知识补全方法模型;基于注意力机制的模型。

1.1 知识图谱补全

已有的知识图谱补全算法主要可以分为知识嵌入算法和关系路径推理算法两类。基于知识嵌入的算法通过表示学习,把图谱映射入低维度的向量空间,通过在向量空间中计算实体、关系的距离、相似度等方式,进行知识图谱补全[3-4,11-12]。典型的基于知识嵌入的模型有以TransE[3]为代表的翻译模型、结构表示模型(Structured Embedding, SE)[14]等。在将单词转化为词向量的研究中,Mikolov等发现词向量空间存在不平衡现象[15],受该现象启发,Bordes等提出TransE模型。在TransE模型中,对于一个知识三元组(h,r,t),其中的关系r被视为头实体h和尾实体t之间的一个翻译,在学习过程中的优化目标为尽可能使h+r的值与t相一致,若有三元组(h,r,t)存在,希望h+r≈t,否则h+r应尽量远离t。TransE模型相对其他模型而言较为简单,且其计算复杂度低,在简单关系的补全上性能较好,但在处理复杂关系时效果仍有待提升。Zhen等人提出了TransH模型[15],在TransE模型上,对每一个关系增加了一个对应的超平面,使实体的表示不再唯一,对应每一个不同关系时同一实体在对应的关系超平面中具有不同的嵌入表示,解决了TransE对于难以区分满足同一头实体h的同一关系r,可能存在的多个对应尾实体的问题。TransE模型把所有实体和关系投影进同一向量空间,但实际上每个实体都有多个不同方面的含义和属性,不同的关系在与实体相连时也对应了这些实体在不同方面的含义和属性,把实体和关系放在同一空间中考虑是无法反映这种性质的。TransR[16]模型把实体和关系分别进行处理,每个三元组都有一个对应的关系空间,对所有的三元组都单独进行学习。与先前的嵌入模型相比,TransR的效果有了较为明显的提升,但在该模型中,对于某一个关系r,该关系所连接的各个头、尾实体的类型和属性差异可能很大,但需要映射到同一个投影矩阵中;在TransR模型中,关系r的投影矩阵仅取决于关系r本身,无法反映该关系相关的实体,以及这些实体和关系共同作用的情况;由于TransR模型需要计算大量不同向量空间之间的投影,当数据集较大时所需的计算资源极大。为了解决上述问题,Ji等人设计了TransD[17]模型,设置了两个投影矩阵,把头尾实体投影到两个单独的关系空间中,既使得这两个投影矩阵与关系和头/尾实体都有关,也缓解了参数过多的现象。

结构表示模型[14]用d维向量表示实体,用与关系r相关的两个矩阵Mr,1,Mr,2∈Rd×dMr,1,Mr,2∈Rd×d把关系r所连接的两个实体对应的向量嵌入到关系r对应的向量空间。但是结构表示模型学习到的两个不同的矩阵仍然无法准确反映出实体和关系之间存在的对应关系。为缓解该问题,单层神经网络模型SLM使用单层神经网络,通过一个非线性计算,定义了三元组的损失函数。该模型引入的非线性计算简单表示了实体和关系之间的联系,但该联系仍不够紧密,且非线性计算提高了模型的计算复杂度。张量神经网络模型[18]利用了双线性张量层直接关联了两个实体的向量表示,在小规模数据集上具有较好的效果。但是NTN较高的计算复杂度导致该模型的运算开销过大,在知识图谱规模较大的时候难以应用。

Yang等提出了DistMult[19]模型,方法是将NTN和TransE结合用于知识图谱补全,再改模型中关系以对角矩阵的形式进行表示和运算。Trouilon等人提出ComplEx模型[5]对DistMult进行了拓展,把原有的实数嵌入空间改为复数空间,以便更好地对非对称关系进行建模。ConvE[20]在ComplEx的基础上进行改进,通过将多层卷积网络模型应用于关系三元组,取得了稍高于ComplEx的性能。

1.2 基于关系路径的知识图谱补全方法

上述关于知识图谱补全方法研究内容的重点主要集中在嵌入单独的实体和关系上,对于两个实体之间关系路径的利用效果不好。在本研究中,我们主要关注如何利用实体之间存在的关系路径完成知识图谱补全任务。路径排序算法(Path Ranking Algorithm, PRA)[6]把关系路径视为特征,通过随机游走、深度优先搜索、广度优先搜索等方法完成特征抽取任务后,生成实体间路径集合,将随机游走概率作为样本的特征值,并为每种关系单独训练一个二分类器,以判断两个不相邻的实体之间满足目标关系的可能性。Gardner等在PRA模型中引入文本语料库作为推断过程中的额外依据[

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗思付之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值