《第9章-基于GNN的图表示学习》学习笔记

最新推荐文章于 2022-11-25 23:27:59 发布

智慧的旋风

最新推荐文章于 2022-11-25 23:27:59 发布

阅读量1.1k

点赞数 2

分类专栏：论文和书籍阅读（GNN）文章标签：深度学习人工智能机器学习神经网络

本文链接：https://blog.csdn.net/weixin_41650348/article/details/109612749

版权

论文和书籍阅读（GNN）专栏收录该内容

21 篇文章 15 订阅

订阅专栏

第9章-基于GNN的图表示学习

图表示学习是图学习领域中十分热门的研究课题，而GNN的出现又给图表示学习带来了新的建模方法。

9.0 端到端学习是一种强大的表示学习

与传统的特征工程不同，端到端（end-to-end）学习将原始数据作为输入，直接将任务学习的结果作为输出。

网络的前部主要进行表示学习，自动提取特征；网络后部主要进行任务学习。端到端学习可以看作是表示学习和任务学习的组合，但两部分并不是割裂的，它们是联合优化的。

低层的网络主要提取低层特征，高层的网络主要提取抽象的、与任务有关的特征。低层次的特征更加通用，可以基于这个特性进行迁移学习，针对某些特定的任务对某些模型进行微调，已达到针对特定任务的良好效果。

9.1 图表示学习

图表示学习（graph embedding）又可以称为网络表示学习（network embedding），或者称为网络嵌入，主要目标是将图数据转化成低维稠密的向量化表示，同时确保图数据中的某些性质在向量空间中也能够得到对应。

图数据的表示可以是节点层面的、边层面的和全图层面的，其中节点表示学习一直是图表示学习的主要对象。如果能够将图数据表示成包含丰富结构和属性信息的向量，那么后续的任务学习就能够得到更好的效果。

由于图数据自身非线性结构的特点，再加上图数据本身包含着丰富的结构信息，图表示学习就显得十分重要，主要体现在两个方面：
（1）方便计算机处理
（2）为之后的任务学习奠定基础

在这里插入图片描述
图表示学习从方法上来说可以分为3类：
（1）基于分解的方法
（2）基于随机游走的方法
（3）基于深度学习的方法

类别	主要思想	代表模型	优点	缺点
基于分解的方法	对结构信息进行矩阵分解	-	-	具有很高的计算复杂度
基于随机游走的方法	将随机游走所产生的序列看作是句子，节点看作是词，类比词向量Skip-gram等模型的学习方法	DeepWalk、Node2Vec等	将图转化为序列，实现了大规模图的学习	①图本身的结构信息没有充分利用 ②很难融合属性信息进行表示学习
基于深度学习的方法	主要是使用基于GNN的方法进行表示学习	GraphSAGE、GAE、DGI等	①融合结构和属性信息进行表示学习 ②可以将表示学习和任务学习有机结合 ③能够适应大规模图	在模型深度、过平滑问题等方面仍面临挑战

9.2 基于GNN的图表示学习

依据损失函数（Loss Function）的不同，基于GNN的无监督图表示学习方法可分为2类：
（1）基于重构损失的GNN
（2）基于对比损失的GNN

9.2.1 基于重构损失的GNN

主要思想类似于自编码器（AE），将节点之间的邻接关系进行重构学习，并将重构的矩阵与原矩阵进行相似度对比，来更新参数。因此，这类方法也叫作图自编码器（GAE）。
$\\[2ex] \hat A=\sigma(ZZ^T)$
其中 $Z$ 是所有节点的表示矩阵， $\hat A$ 是重构后的邻接矩阵，重构损失定义如下，
$Loss_{recon}=||\hat A-A||^2$
为了防止过平滑的问题，需要加入一些噪声，迫使模型学习到有用的信息：
（1）将 $X$ 增加随机噪声或置零
（2）将 $A$ 删除适当比例的边或修改边的权重

接下来，是比较重要的变分图自编码器（VGAE）。说实话，我暂时还看不懂，nb就完事了，什么时候看懂了再写吧。。。

9.2.2 基于对比损失的GNN

对比损失通常会设置一个评分函数 $D(\cdot)$ ，用来提高正样本的得分、降低负样本的得分。

类比词向量的学习，在图中，节点看作是词，如何定义节点的“上下文”就成为一个值得研究的问题。目前为止共有3中定义方式：
（1）邻居作为上下文
（2）子图作为上下文
（3）全图作为上下文

不论是何种定义方式，我们都可以定义一个通用的损失函数，
$Loss_{v_i}=-log(D(z_ic))+log(D(z_i\overline c))$
其中 $c$ 为上下文的表示向量， $\overline c$ 为非上下文的表示向量。

1、邻居作为上下文

通过损失函数建模节点和邻居节点之间的关系，GraphSAGE中就使用了这种思路。主要思想类似于DeepWalk，将随机游走时与中心节点 $v_i$ 一起出现在固定窗口内的节点 $v_j$ 视为邻居。
$\\[2ex] Loss_{v_i}=log(1-\sigma(z_i^Tz_j))+E_{v_n\sim p_n(v_j)}log(\sigma(z_i^Tz_{v_n}))$
其中 $p_n(v_j)$ 是节点出现概率的负样本分布。由于此方法不需要重构出 $\hat A$ 之后再最小化损失，所以省去了 $O(n^2)$ 的空间复杂度。

2、子图作为上下文

邻居作为上下文强调的是节点之间的共现关系，但是有时候距离远的节点的结构未必没有相似之处，如此一来就缺乏对节点结构相似性的捕捉。

在这里插入图片描述
$Z=GNN(A,X),Z_{context}=GNN_{context}(A,X) \\[2ex] c_i=Readout(\{Z_{context}[j],\forall v_j是v_i的上下文锚点\}) \\[2ex] Loss_{v_i}=log(1-\sigma(z_i^Tc_i))+log(\sigma(z_i^Tc_{j|j\ne i}))$
其中一共用到2个GNN。一个用来在 $K$ 阶子图上提取其特征向量 $Z$ ，另一个提取每个节点作为上下文锚点时的表示向量 $Z_{context}$ ，使用读出机制来聚合上下文锚点的表示向量 $c_i$ 。

3、全图作为上下文

DGI模型实现了节点与全图之间的对比损失的学习机制。

在这里插入图片描述
$Z=GNN(A,X),\overline Z=GNN(A_{currupt},X_{currupt}) \\[2ex] s=Readout(\{z_i,\forall v_i\in V\}) \\[2ex] Loss_{v_i}=log(1-D(z_i,s))+log(D(\overline z_i,s))$
其中 $A_{currupt},X_{currupt})$ 为加噪声构造的负采样样本。将正负样本送入同一个GNN中进行学习。使用读出机制得到全图的向量表示 $s$ 。

总结

一刷结束，看看论文再准备二刷。

智慧的旋风

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
《第9章-基于GNN的图表示学习》学习笔记

第9章-基于GNN的图表示学习图表示学习是图学习领域中十分热门的研究课题，而GNN的出现又给图表示学习带来了新的建模方法。9.1 图表示学习图表示学习（graph embedding）又可以称为网络表示学习（network embedding），或者称为网络嵌入，主要目标是将图数据转化成低维稠密的向量化表示，同时确保图数据中的某些性质在向量空间中也能够得到对应。图数据的表示可以是节点层面的、边层面的和全图层面的，其中节点表示学习一直是图表示学习的主要对象。如果能够将图数据表示成包含丰富结构和属性信
复制链接

扫一扫