Scalable Feature Learning for Networks
(可扩展的图嵌入表示学习算法)
论文地址:https://arxiv.org/pdf/1607.00653.pdf
摘要:
网络中节点和边缘上的预测任务需要在学习算法所使用的工程特征上付出谨慎的努力。最近在更广泛的表征学习领域的研究已经在通过学习特征本身来实现自动预测方面取得了重大进展。然而,目前的特征学习方法不足以表达网络中观察到的连接模式的多样性。在这里,我们提出了node2vec,一个用于学习网络中节点连续特征表示的算法框架。在node2vec中,我们学习节点到低维特征空间的映射,以最大限度地保留节点的网络邻域的可能性。我们定义了一个灵活的节点网络邻域概念,并设计了一个有偏差的随机漫步过程,该过程可以有效地探索不同的邻域。我们的算法推广了先前基于网络邻域的严格概念的工作,我们认为在探索邻域时增加的灵活性是学习更丰富表征的关键。我们在来自不同领域的几个现实世界网络中展示了node2vec在多标签分类和链路预测方面优于现有最先进技术的有效性。综上所述,我们的工作代表了一种在复杂网络中有效学习最先进的任务独立表示的新方法。
关键词:
信息网络,特征学习,节点嵌入,图表示。
背景知识
DeepWalk的缺点
用完全随机游走,训练节点嵌入向量,仅能反应相邻节点的社群相似信息,无法反映节点的功能角色相似信息。
传统搜索策略
BFS(广度优先):先访问距离起始节点近的节点,然后逐渐向离起始节点更远的节点进行扩展。
DFS(深度优先):是沿着树的深度遍历树的节点,尽可能深的搜索树的分支。
在homophily(同质性)假设下(对应BFS),同一个社区的节点,词嵌入后会比较相似。如s1和u
在structural equivalence假设下(对应DFS),有相同结构角色功能的节点,词嵌入后会比较相似。如u和s6
在真实图里,这两种不是互斥的,一个图可能既有homophily特质,也有structural equivalence特质。
BFS采样结果比较稳定,方差较小。
DFS采样结果比较不稳定,方差较大。
node2vec
随机游走
搜素的偏向α
这里首先看论文的示意图。游走的前进方向从邻接节点随机选择,细分成了返回上一节点、在上一节点附近徘徊、前进到更远的节点三种状态。并且用p和q两个参数来控制路径。当q非常大的时候,前进的权重很低,若p很小,则会更偏向返回起点;若p很大则更倾向于徘徊。如果q很小,这个时候大概率就会选择x2或者x3前进一步。这样的游走就实现了对权重的考量(2阶随机游走,同时考虑当前位置和前一位置)。
因此,如果p很小,那么t出发前往v后,大概率又会返回t(这里的v不一定是一个,实际上t前往v的1/p就是t的前进概率,可能会有v1 v2 v3…多个节点),所以在这种情况下,这串随机序列将会在以t为中心的小范围里反复游走,这种情况会放大t为中心的小范围拓扑结构信息挖掘(广度优先,BFS);反之,如果q很小,那么将会大概率背上行囊远行,追寻诗和远方(深度优先,DFS)。