Graph Representation Learning Chapter[4]

最新推荐文章于 2024-09-14 19:18:15 发布

00_JackLu

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量465

点赞数

分类专栏： GNN Graph Representation Learning 文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/qq_43399648/article/details/127285499

版权

GNN 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

Graph Representation Learning

3 篇文章 0 订阅

订阅专栏

Chapter4

本章中，我们将继续关注浅层嵌入方法，并将介绍处理多关系图的技术。

Knowledge graph completion

这章主要搞知识图补全一般来说，知识图补全的目标是预测图中缺失的边，即关系预测，但也有使用多关系图进行节点分类任务的例子。

4.1 Reconstructing multi-relational data

与简单图一样，我们可以将多关系图的嵌入视为重构（reconstruction）任务。给定两个节点的嵌入，我们的目标是重构这些节点之间的关系，不同之处在于，我们必须处理多种不同类型边的关系。

要想解决上述边的问题，我么要在原输入内容的基础上增加一个关系类型。因此，我们可以将这个解码器的输出，即 $d ec （ z u ， τ ， z v ）$ ，解释为边 $（ u ， τ ， v ）$ 存在于图中的可能性。

最早的多关系嵌入方法是RESCAL，它的解码器为：

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ DEC(z_u,\tau,z_v) = z_u^{\tau}R_\tau z_v \ \ \ \ \ \ \ \ \ \ \ \ \ \ (4.1)$

$Rτ∈R^{d×d}$ 是特定于关系 $τ$ 的可学习矩阵。使用这个解码器，我们可以训练我们的嵌入矩阵 $Z$ 和关系矩阵 $R τ$ , 重构损失定义为：

在这里插入图片描述

$A ∈ R^{|V|×|R|×|V|}*$ 是多关系图的邻接张量（多维数组）。优化4.2就是在执行张量分解。

Loss functions, decoders, and similarity functions

区别节点嵌入的3个大因素：

解码器
相似度衡量
损失函数

在多关系设置中，我们还将看到解码器和损失函数的多样性。本章中的所有方法都假设我们试图从低维嵌入中重建直接的（多关系的）邻居。这是由于在多关系图中难以定义高阶邻域关系，以及大多数多关系嵌入方法都是专门为关系预测而设计的。

4.2 Loss functions

4.2中的损失函数有两个问题：

1、计算昂贵， 3层求和，复杂度高

2、张量只含有二分值，更接近于分类，而4.2的结果—均方误差是自然的回归损失函数，不能分类。

Cross-entropy with negative sampling

一个比较流行的负采样的交叉熵损失函数：

在这里插入图片描述

会发现和第三章的负采样很像，原理是一样的。

log是为了将输出转化在[0,1]之间。 $log(\sigma(DEC(z_u, τ, z_v)))$ 等于我们预测图中确实存在的一条边的“真”的对数似然。 $E v n \sim P n, u (V) [l o g (σ (- d ec (z u, τ, z v n)))]$ 是边“假”的对数似然。

这个预测要用到蒙特卡洛估计：

在这里插入图片描述

Max-margin loss

最大边际损失（not exact），使用的是正负样本进行对比估计的方法。

在这里插入图片描述

这种情况下，我们比较真实对的解码分数与负样本的比较，“真”对的分数大于“负”对，损失就会变小， $\triangle$ 表示边际，如果分数差异对所有例子来说都贼大，那就叫hinge loss.

4.3 Multi-relational decoders

损失函数讲完了，聊一聊解码器。

之前提到过的RESCAL，是基于张量分解的模型，它是一个可训练的矩阵 $Rτ ∈ R^{d×d}$ ,**复杂度是 $O(d^2)$ ,算起来会比较贵，所以很少去用。之前没有关系的时候就是 $O(d^2)$ ，现在多一条边，就更是多了一个数量级。所以就出现了大佬开发的 $O (d)$ 级别的编码器啦。