node2vec核心思想_node2vec思想-CSDN博客

本文链接：https://blog.csdn.net/qq_27430269/article/details/92631472

[kdd2016] node2vec: Scalable Feature Learning for Networks

node2vec的核心在于得到从每一个节点 $u$ 出发，定长 $l$ 的随机游走序列集合，进而得到每个节点的“新邻居”，然后用word2vec的思想来学习更新每一个节点的表示向量。
在这里插入图片描述
$\textbf{目标：}$ 假定一个随机游走序列 $\rightarrow t\rightarrow v\rightarrow$ 刚从 $t$ 到 $v$ ，如何找到 $v$ 的下一步？

对于节点 $v$ 来说，它下一步的概率是基于它的前一个节点 $t$ 和它的下一步节点 $x$ 的关系决定的。其中， $x$ 也可能是 $t$ ，因为对于无向图来说， $t$ 也是 $v$ 的邻居。
定义 $d_{tx}$ ，表示 $v$ 的前一个节点 $t$ 和下一个节点 $x$ 之间的最短路径长度， $d_{tx}=\{0,1,2\}$ ，即所谓的二阶。如图，

当 $v$ 的下一步就是 $t$ ，即 $d_{tx}=0$ ， $v\rightarrow x$ 的搜索偏差（search biases） $\alpha=1/p$ ；
当 $v$ 的下一步 $x$ 也是 $t$ 的邻居，即 $d_{tx}=1$ ， $v\rightarrow x$ 的搜索偏差 $\alpha=1$ ；
当 $v$ 的下一步 $x$ 不是 $t$ 的邻居，即 $d_{tx}=2$ ， $v\rightarrow x$ 的搜索偏差 $\alpha=1/q$ 。

其中， $q$ 为前进参数（In-Out parameter），若 $q > 1$ , 则到达 $v$ 之后的下一步会更接近 $t$ （BFS）；反之会远离 $t$ (DFS)。 $p$ 为回溯参数（return parameter），决定有多大的概率会回到上一个节点，若 $p > m a x (q, 1)$ ,则会使游走尽可能不回溯；若 $p < m i n (q, 1)$ ,则使整个游走最终接近链路的起始节点。

这样就算出了该游走从 $t$ 到达 $v$ 之后，下一步要到达节点 $x$ 的搜索偏差 $\alpha$ 。若每条路径对应的有初始权重 $w_{vx}$ （没有则默认为1），则对前面得到的每条路径的搜索偏差 $\alpha$ 乘上对应的权重，即 $v\rightarrow x$ 的概率为 $\pi_{vx}=\alpha w_{vx}$ 。接着对节点 $v$ 到达的所有的下一个节点的路径概率 $\pi_{v.}$ 归一化，然后采用Alias采样可以得到下一步到达的节点 $x$ 。（其中，Alias采样只是让采样更快 $O (1)$ ，不会对结果造成影响）
node2vec伪码