文献阅读(15)CIKM2015-GraRep:Learning Graph Representations with Global Structural Information

本文是对《GraRep:Learning Graph Representations with Global Structural Information》一文的浅显翻译与理解,原文章已上传至个人资源,如有侵权即刻删除。

朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章,请移步:文献阅读总结:网络表示学习/图学习

Title

《GraRep:Learning Graph Representations with Global Structural Information》
——CIKM2015
Author:Shaosheng Cao

总结

文章提出了GraRep算法,认为节点间的高阶相似度在生成节点的全局表征时起到很大作用,提出了k步相似度(即两节点通过k步能够连接),对不同k值计算其状态转移矩阵,并按照k值的不同分类存储。算法将损失函数的优化问题转化成为矩阵分解问题,通过SVD分解直接得到图的全局表征矩阵,每一行代表一个节点的全局表征向量。此外,算法还给出了相关的数学证明,并将Skip-gram算法视为GraRep的一种特殊情况进行论证。

1 高阶相似度

设S为邻接矩阵,D为度数矩阵,则有图的状态转移矩阵A为:
在这里插入图片描述
给出图G=(V,E),可以学习其全局表征矩阵W,每一行代表一个节点的全局表征向量,这种全局信息有两个功能:(1)捕获两个不同顶点的长距离关系;(2)在不同转移步中考虑不同联系。
关于K阶相似度的具体解释如下图:
在这里插入图片描述
图a和e相比,虽然节点都直接连接,但分别为强连接和弱连接。
图b和f相比,节点的共同邻居越多,其连接性就越强。
图c和g相比,c中B和A2的共同邻居多,从而A1和A2的连接性就比g中的强。
图d和h相比,d中B1和B2的共同邻居多,因此A1和A2连接性就更强。

对k阶相似度的分值存储,这是因为如果不进行区分,可能不同阶的相似度就会被误读成同阶的,如下图所示:
在这里插入图片描述

2 损失函数

对节点w和c,其k步发生交互的可能性,由其k步概率转移矩阵(k个A相乘)表示,即:
在这里插入图片描述
给出一个图,视为由k步组成的所有路径集合,即起于w终于c组合。
则算法目标在于最大化:(1)所有该类组合(即k步)都来自于该图;(2)所有非该类组合都不来自于该图。

受skip-gram算法的启发,文章利用噪声对比估计(NCE)来定义损失函数,有:
在这里插入图片描述
其中,对单个Lk(w),有:
在这里插入图片描述
对负采样部分,可以进一步推导为:
在这里插入图片描述
因此,对于指定的(w,c),其局部损失定义为:
在这里插入图片描述
文章中,k的大小是有范围限制的,当k大到一定程度时,其转移概率也就趋近于定值,这种分布可以如下表示:
在这里插入图片描述
其中N是图G中的节点总数,q(w’)是在路径中首个顶点选择w’的概率,在均匀分布情况下,即为1/N,从而有:
在这里插入图片描述
定义e=w·c,使得损失函数对e的偏导为0,则有:
在这里插入图片描述
其中β=λ/N,这意味着从本质上,是要将矩阵Y拆分成两个矩阵W和C,它们的每一行都分别代表一个节点w和c的表征,则有:
在这里插入图片描述

3 矩阵分解最优化

对Y中可能存在负值,但概率最小为0,因此将负值归0则有:
在这里插入图片描述
随后,对X进行奇异值分解(SVD),有:
在这里插入图片描述
在SVD理念中,认为取奇异值矩阵的top-d位,就足够表示出整个矩阵的框架与信息,因此有:
在这里插入图片描述
另一方面,X还可以类同Y分解成W和C两矩阵相乘的形式,即有:
在这里插入图片描述
则W即为所求的节点全局变量矩阵。

4 算法模型

有完整的算法步骤如下:
在这里插入图片描述
1.计算不同k值下的概率转移矩阵;
2.对每个k值,都计算相应的X并进行矩阵分解最终得到k对应的W;
3.得到所有k值对应的w后,进行组合得到最终的全局表征矩阵。

5 skip-gram分析

文章将skip-gram视为本算法的一种特殊情况,并加以分析。

对均匀分布的无向图,deepwalk中采用的skip-gram算法是可行的,但对有向图而言,就需要基于边上权重的概率采样算法。文章提出了对原算法SGNS(即skip-gram)进行增强的E-SGNS算法,来适用于有向图。
首先,对k步的损失L进行加和有(函数为加操作):
在这里插入图片描述
仿照上文令偏导数为0,则有:
在这里插入图片描述
M即为k步的概率转移矩阵,有:
在这里插入图片描述
可以看出,E-SGNS与GraRep的不同之处在于加和函数f(·),在E-SGNS中,不同k值对应的损失其权重是相同的,但GraRep中不同的损失值有着不同的权重,直接进行线性的组合很难达到理想的结果。

在本算法中,使用转移概率来评测节点间的关系,文章对这种措施的合理性进行了证明,具体地说,是论证了采样和转移概率之间的的本质关系。
设节点w在一次随机游走序列中出现的次数为:
在这里插入图片描述
则w直接连接其邻居c1的次数为:
在这里插入图片描述
接下来,文章分析了窗口大小为2的情况下,w和c预期共同出现的次数:
在这里插入图片描述
其中c’是节点w和c2建立关系的桥接,即它们的共享邻居,则不断改变k的值,可以得到如下公式:
在这里插入图片描述
将它们进行加和则有:
在这里插入图片描述
则#(w,c)即w和c在k步下共同出现的期望计数,根据对M_w,c的定义,可以得到:
在这里插入图片描述
此外,还可以计算在窗口中出现c的次数,即从所有可能节点到c的转移:
在这里插入图片描述
最终将这些期望计数送入E-SGNS关于Y的等式中,则有:
在这里插入图片描述
其中|D|是序列中所有观察到的节点对的集合,此处|D|=γKN,得到的矩阵Y即等同于SGCNS在原文中所描述的。至此,可以发现,SGNS本质上是GraRep的一种特殊情况,处理的是可以从图中采样的线性序列。该矩阵的表现形式及各项内容,都与上文中GraRep的完全吻合。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值