上篇谈到了deepwalk,整体流程就是按均匀分布从当前节点走到下一个节点,从而采样到一条条“句子”,但是这样采样方式一定是对的吗?边上是否有权重影响呢?走回头路的概率也是等于选择其他邻居节点的.为了使得walk的更合理,node2vec这篇论文给了一个通用的“游走”框架.同样是通过游走产生句子,然后通过w2v产出向量.
DOTA:大有可为的GNN:DeepWalkNode2vec
BFS和DFS大家再熟悉不过,node2vec就是结合了这两种方式进行采样.为什么要结合这两种方式呢?因为对于图而言,我们希望每个节点最终学到的向量既表达了同质关系也表达了拓扑关系.比如上图中u和S1是相似的,因为他们之间空间上相近.又比如u和S6是相似的,虽然u和S6之间距离较远,但是因为u和S6周围都围绕了4个节点,所以他们从拓扑上看是类似的.所以如何才能让学到的向量能表达这种信息呢?node2vec就提出了一种随机游走的框架,如下图:
每个边都有权重,当前节点的所有边权重归一化后就是当前节点到其他节点的概率.从上图中我们可以看到,一共有3种类型的边权重,第一种是<v,t>表示当前节点v和上一个节点之间的边权重为1/p,第二种是<v,x1>表示当前节点和临接上一个节点t的边权重为1,第三种就是<v, other>表示与其他节点的边权重为1/q.聪明的炼丹师已经发现,只要p=q=1,就是deepwalk.通过这种框架,如果p在0~1表示算法偏向于走回头路,如果p>1则算法偏向于远离上一个节点.同理如果q在0~1之间,则算法偏向于选择远离t,否则倾向于接近t.整个算法表示如下所示:
虽然有了一个通用框架是好事,但是我们需要调的参数也多了,我们看看实验中调了哪些参数,如下所示:
我们可以发现,参数对F1-score的影响较大,因此要用的炼丹师们要耐心去调.从实验结果来看,node2vec也表现较优.
代码
这里代码相较于deepwalk要稍微复杂一些,图用networkx进行构建,构建过程不再赘述.
# 核心代码