系列文章目录
阅读笔记Graph Representation Learning–Chapter2
阅读笔记Graph Representation Learning–Chapter3
阅读笔记Graph Representation Learning–Chapter4
阅读笔记Graph Representation Learning–Chapter5
阅读笔记Graph Representation Learning–Chapter6
阅读笔记Graph Representation Learning–Chapter8
文章目录
Multi-relational Data andKnowledge Graphs
概要
Knowledge graph completion:我们在本章中回顾的大多数方法最初都是为了完成知识图谱任务而设计的。知识图谱是节点之间的边也具有标签的多关系图。一般来说知识图谱补全的目标预测图中缺失的边,即关系预测。但也有使用多关系图的节点分类任务的示例。在本章中,我们将简要概述多关系图的嵌入方法,但需要注意的是,对知识图谱的补全处理超出了本章的范围。并不是所有的知识图完成方法都依赖于嵌入,我们也不会在这里涵盖所有不同的嵌入方法。
4.1 Reconstructing multi-relational data
(1)
由于知识图谱中的边也是具有标签的,所以我们需要把decoder稍微改装一下。例如:
所以可以将embedding martix Z,以及关系矩阵利用重建损失函数来一起训练。
(2)Loss functions, decoders, and similarity functions
在第三章中,我们讨论的节点嵌入方法的多样性主要来源于使用不同的解码器(DEC)、相似性度量(S[u,v])和损失函数(L)。解码器在一对嵌入节点之间打分;相似性函数定义了我们要解码的节点-节点相似度;损失函数告诉我们如何评估解码器输出与ground truth相似性度量之间的差异。在多关系设置中,我们还将看到解码器和损失函数的多样性。然而,几乎所有的多关系嵌入方法都是直接基于邻接张量来定义相似度。换句话说,本章中的所有方法都假定我们试图从低维嵌入中重建直接(多关系)邻居,这是由于难以在多关系图中定义高阶邻域关系, 以及大多数多关系嵌入方法其实是专门为关系预测而设计的。
4.2 Loss functions
**(1)**如上所述,多关系节点嵌入方法的两个关键要素是解码器和损失函数。我们首先简要讨论用于此任务的标准损耗函数,然后再将注意力转向文献中提出的众多解码器。作为我们考虑损失函数的动机,我们在下列式子中引入的简单重建损失的缺点值得考虑。
这种损失函数主要有两个问题:第一个问题是计算成本非常高。
我们的目标是从低维节点嵌入中解码出邻接张量。我们知道(在大多数情况下)该张量将仅包含二进制值,但是上图中的等式中的均方误差不适合这种二进制比较。 实际上,均方误差是适合于回归任务的损失函数,而我们的目标更接近在多关系图中对边进行分类。
(2)Cross-entropy with negative sampling
负采样交叉熵损失函数是一种既有效又适合于我们任务的常用损失函数:
σ:代表逻辑函数
上图表示,将解码器的输出送入逻辑函数可以得到正则化的大于0小于1可以被当做概率的分数。这个分数等于我们对于一条边是否存在于这个图中的概率值。
上图式子得出来的值等于对于图中不存在的边,我们正确预测“false”的期望对数可能性的大小。实际中,这个数学期望是通过使用一个蒙特卡洛近似来实现,最常用的方式是:
(3)Max-margin loss
另一个常用的用于多关系节点嵌入的损失函数是margin loss:
在这个损失函数中,我们再次将解码后的分数与负样本进行比较,这种策略通常被称为对比估计。然而,与其把它当作一个二元分类任务,在上图的式子中,我们只是比较解码器的直接输出。如果“真”对的分数比“负”对的分数大,那么我们就有一个小损失。将∆项称为边际,如果所有示例的分数差至少都比这个边际大,则损失将等于0。这种损失也称为铰链损失。
4.3 Multi-relational decoders
几种常用的多关系数据解码器的总结如下表所示:
上一节介绍了对于学习多关系图中节点embeddings的两种最常用的损失函数。这些损失函数可以与各种不同的解码器功能组合在一起,现在我们将注意力转向这些解码器的定义。
(1)Translational decoders
TransE
在这些方法中,我们使用d维嵌入来表示每个关系。 在根据关系嵌入平移头节点之后,边缘的可能性与头节点的嵌入和尾节点的嵌入之间的距离成比例。 TransE是提出的最早的多关系解码器之一,并且在许多应用中仍然是牢固的基准。然而,TransE的一个局限性是它的简单性,许多作品也提出了对这种翻译思想的扩展。我们将这些模型统称为TransX模型,它们具有以下形式:
TransX
TransH
(2)Multi-linear dot products
第二个流行的工作不是通过翻译嵌入来定义解码器,而是通过从简单图形中概括点积解码器来开发多关系解码器。
DistMult
因此,该方法对将要在三个向量上定义的点积进行了简单的概括。
(3)Complex decoders
(2)中的方法的缺陷是它只能对对称关系进行编码。
本小节中的方法将embeddings从实数改为复数。
相关方法有:
ComplEx
RotatE
额外的限制条件是:
这个限制意味着关系embeddings的每个维度都可以表示为
因此可以对应于复数平面上的旋转。