文献阅读（15）CIKM2015-GraRep：Learning Graph Representations with Global Structural Information

学徒刘猛

已于 2022-10-28 12:19:48 修改

阅读量751

点赞数 1

分类专栏：文献阅读文章标签：人工智能

于 2020-03-18 12:09:04 首次发布

本文链接：https://blog.csdn.net/CSDNTianJi/article/details/104941587

版权

文献阅读专栏收录该内容

87 篇文章 32 订阅

订阅专栏

本文是对《GraRep：Learning Graph Representations with Global Structural Information》一文的浅显翻译与理解，原文章已上传至个人资源，如有侵权即刻删除。

朋友们，我们在github创建了一个图学习笔记库，总结了相关文章的论文、代码和我个人的中文笔记，能够帮助大家更加便捷地找到对应论文，欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章，请移步：文献阅读总结：网络表示学习/图学习

Title

《GraRep：Learning Graph Representations with Global Structural Information》
——CIKM2015
Author：Shaosheng Cao

总结

文章提出了GraRep算法，认为节点间的高阶相似度在生成节点的全局表征时起到很大作用，提出了k步相似度（即两节点通过k步能够连接），对不同k值计算其状态转移矩阵，并按照k值的不同分类存储。算法将损失函数的优化问题转化成为矩阵分解问题，通过SVD分解直接得到图的全局表征矩阵，每一行代表一个节点的全局表征向量。此外，算法还给出了相关的数学证明，并将Skip-gram算法视为GraRep的一种特殊情况进行论证。

1 高阶相似度

设S为邻接矩阵，D为度数矩阵，则有图的状态转移矩阵A为：
在这里插入图片描述
给出图G=(V,E)，可以学习其全局表征矩阵W，每一行代表一个节点的全局表征向量，这种全局信息有两个功能：（1）捕获两个不同顶点的长距离关系；（2）在不同转移步中考虑不同联系。
关于K阶相似度的具体解释如下图：
在这里插入图片描述
图a和e相比，虽然节点都直接连接，但分别为强连接和弱连接。
图b和f相比，节点的共同邻居越多，其连接性就越强。
图c和g相比，c中B和A2的共同邻居多，从而A1和A2的连接性就比g中的强。
图d和h相比，d中B1和B2的共同邻居多，因此A1和A2连接性就更强。

对k阶相似度的分值存储，这是因为如果不进行区分，可能不同阶的相似度就会被误读成同阶的，如下图所示：
在这里插入图片描述

2 损失函数

对节点w和c，其k步发生交互的可能性，由其k步概率转移矩阵（k个A相乘）表示，即：
在这里插入图片描述
给出一个图，视为由k步组成的所有路径集合，即起于w终于c组合。
则算法目标在于最大化：(1)所有该类组合（即k步）都来自于该图；(2)所有非该类组合都不来自于该图。

受skip-gram算法的启发，文章利用噪声对比估计(NCE)来定义损失函数，有：
在这里插入图片描述
其中，对单个Lk(w)，有：

对负采样部分，可以进一步推导为：

因此，对于指定的(w,c)，其局部损失定义为：

文章中，k的大小是有范围限制的，当k大到一定程度时，其转移概率也就趋近于定值，这种分布可以如下表示：
在这里插入图片描述
其中N是图G中的节点总数，q(w’)是在路径中首个顶点选择w’的概率，在均匀分布情况下，即为1/N，从而有：

定义e=w·c，使得损失函数对e的偏导为0，则有：

其中β=λ/N，这意味着从本质上，是要将矩阵Y拆分成两个矩阵W和C，它们的每一行都分别代表一个节点w和c的表征，则有：
在这里插入图片描述

3 矩阵分解最优化

对Y中可能存在负值，但概率最小为0，因此将负值归0则有：
在这里插入图片描述
随后，对X进行奇异值分解(SVD)，有：

在SVD理念中，认为取奇异值矩阵的top-d位，就足够表示出整个矩阵的框架与信息，因此有：

另一方面，X还可以类同Y分解成W和C两矩阵相乘的形式，即有：

则W即为所求的节点全局变量矩阵。

4 算法模型

有完整的算法步骤如下：
在这里插入图片描述
1.计算不同k值下的概率转移矩阵；
2.对每个k值，都计算相应的X并进行矩阵分解最终得到k对应的W；
3.得到所有k值对应的w后，进行组合得到最终的全局表征矩阵。

5 skip-gram分析

文章将skip-gram视为本算法的一种特殊情况，并加以分析。

对均匀分布的无向图，deepwalk中采用的skip-gram算法是可行的，但对有向图而言，就需要基于边上权重的概率采样算法。文章提出了对原算法SGNS（即skip-gram）进行增强的E-SGNS算法，来适用于有向图。
首先，对k步的损失L进行加和有（函数为加操作）：
在这里插入图片描述
仿照上文令偏导数为0，则有：

M即为k步的概率转移矩阵，有：

可以看出，E-SGNS与GraRep的不同之处在于加和函数f(·)，在E-SGNS中，不同k值对应的损失其权重是相同的，但GraRep中不同的损失值有着不同的权重，直接进行线性的组合很难达到理想的结果。

在本算法中，使用转移概率来评测节点间的关系，文章对这种措施的合理性进行了证明，具体地说，是论证了采样和转移概率之间的的本质关系。
设节点w在一次随机游走序列中出现的次数为：
在这里插入图片描述
则w直接连接其邻居c1的次数为：

接下来，文章分析了窗口大小为2的情况下，w和c预期共同出现的次数：

其中c’是节点w和c2建立关系的桥接，即它们的共享邻居，则不断改变k的值，可以得到如下公式：
在这里插入图片描述
将它们进行加和则有：

则#(w,c)即w和c在k步下共同出现的期望计数，根据对M_w,c的定义，可以得到：

此外，还可以计算在窗口中出现c的次数，即从所有可能节点到c的转移：

最终将这些期望计数送入E-SGNS关于Y的等式中，则有：
在这里插入图片描述
其中|D|是序列中所有观察到的节点对的集合，此处|D|=γKN，得到的矩阵Y即等同于SGCNS在原文中所描述的。至此，可以发现，SGNS本质上是GraRep的一种特殊情况，处理的是可以从图中采样的线性序列。该矩阵的表现形式及各项内容，都与上文中GraRep的完全吻合。

学徒刘猛

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文献阅读（15）CIKM2015-GraRep：Learning Graph Representations with Global Structural Information

本文是对《GraRep：Learning Graph Representations with Global Structural Information》一文的浅显翻译与理解，原文章已上传至个人资源，如有侵权即刻删除。
复制链接

扫一扫

专栏目录