本篇论文于2017年发表在第十届ACM子会WSDM(CCF列表B类会议)上的。这是我最近在实验室组会上主讲的一篇论文,因为最近正在研究表示学习算法,当我看到这篇文章的时候感觉问题很新颖,因此对本篇论文进行了研读,所以把我的一些理解记录一下。我将从论文中涉及到的baseline开始介绍,然后在过渡到论文提出的方法,最后对论文的实验和结果进行适当的讨论和介绍。
Baseline:
DeepWalk【1】:DeepWalk方法主要是将随机游走过程和语言模型进行融合。算法先通过随机游走进行初始节点的采样,然后根据SkipGram算法对采样所得的节点进行其邻居节点概率的计算,使其邻居节点出现的概率最大化,从而学习得到网络空间到向量空间的映射函数。具体算法如图1所示。详细算法请参见文献【1】。
图1 DeepWalk算法描述
LINE【2】:LINE算法主要是从网络中节点连接的角度考虑。算法认为除了有直接连边的节点具有高相似性之外,有较多共同邻居节点的节点也有很高的相似性。像图2中节点6和节点7则是因为有直接连边而保持其相似性,节点5和节点6因为共享较多的邻居节点而保持其相似性。因此论文介绍了这两种思想并将其进行融合,在大规模网络的表示学习中表现出较好的性能。具体算法可参见文献【2】。
图2 LINE网络实例图
Node2vec【3】:Node2vec算法的本质是探索网络中具有相似结构的节点信息(如图3中的节点u和节点S6)以及节点的直接邻居节点的信息(如图3中节点u的邻居节点),即综合节点的考虑局部信息和全局信息。算法主要通过设置参数α将深度优先遍历和广度优先遍历的两种遍历方式进行融合,从而规避单一遍历方式的不全面性,在利用词向量模型将遍历所得的节点进行向量化表示。具体的算法可参见文献【3】:
图3 node2vec算法示意图
Problem Statement:
现实世界的网络往往不能单纯的抽象为节点与连边的关系,因为网络节点的固有属性以及网络节点所属的标签属性等因素往往会对网络的表示产生影响。因此,本文主要的研究问题即为将网络节点的标签属性融合到属性网络(由网络的节点信息和节点属性信息构成的网络)的表示学习中去。由此提出了LANE的网络嵌入框架。首先对本文的出现的主要标识字符进行解释,具体如图4所示:
图4 论文中主要符号标识及定义
LANE框架的目标就是将节点标签Y融合到{G,A}的