推荐系统（四）Graph Embedding之Node2Vec

LightYoungLee

已于 2022-01-25 16:23:57 修改

阅读量1.9k

点赞数 1

分类专栏：推荐系统文章标签：深度学习人工智能机器学习

于 2020-01-30 20:47:25 首次发布

本文链接：https://blog.csdn.net/weixin_37688445/article/details/104116672

版权

推荐系统专栏收录该内容

19 篇文章 20 订阅

订阅专栏

在之前的推荐系统（二）Graph Embedding之DeepWalk和推荐系统（三）Graph Embedding之LINE分别提到通过DFS和BFS的方法来遍历user behavior图结构，但这两种方法的缺陷也比较明显：

DeepWalk：DFS，只去关注图的某一条路径上的节点，却不关注某个节点周围的环境组成，
LINE：BFS，和DeepWalk相反，过多关注节点周围环境，而没有探索图的特征。

为了解决以上两个问题，本篇博客介绍的Node2Vec算法通过改变图遍历的方式来兼容DFS(关注结构相似节点)和BFS(关注同质节点)。

关键字： DFS，BFS，RandomWalk

如下是本篇博客的主要内容：

RandomWalk的进阶实现
Embedding向量学习

1. RandomWalk的进阶实现

首先需要声明的是，Node2Vec的建模思路和DeepWalk相同，但是在获取训练样本的算法上有两点不同，对于建模思路这里依然沿用之前介绍DeepWalk的解释图(下图)，如下会介绍两个不同点。
来自阿里论文
Node2Vec与RandomWalk的不同点之一在于生成训练数据的方式不同。DeepWalk的思路是遍历图中每个节点，以某个节点为起点截取指定长度的路径构成一条训练数据，方式比较简单。Node2Vec的思路是兼顾结构性和同质性。对于结构性和同质性，可以通过参考下图来辅助理解。图中的 $u$ 节点和 $s_1$ 具有同质性，因为他们直连；图中 $u$ 和 $s_6$ 周围的环境比较相同，因而他们的结构性比较相似。
在这里插入图片描述
下面会详细介绍Node2Vec兼顾结构性和同质性的遍历图的算法思路。按照RandomWalk的固有思路，选定一个节点作为源节点，假设这个节点为 $c_0=u$ ，目标是获取一条长度为 $l$ 的路径，且当前遍历至第 $i - 1$ 个节点，且为 $v$ ，需要选定 $c_i$ ，这时选中下一个节点为 $x$ 的概率如下所示，
$P(c_i=x|c_{i-1}=v)=\left\{\begin{matrix} \frac{\pi_{vx}}{Z} \ \ \ \ \ if (v,x)\in E\\ 0 \ \ \ \ \ \ \ otherwise \end{matrix}\right.$

这时问题的核心落在如何定义 $\pi_{vx}$ 上，论文认为 $\pi_{vx}=\alpha_{pq}(t,x)\cdot w_{vx}$ ，其中 $t$ 代表的是遍历过程中的第 $i - 2$ 个节点， $w_{vx}$ 代表的是 $v$ 和 $x$ 之间边的权重，算法的宏观解释为通过路径中的上一条边和当前节点的邻接边的权重来控制下一条边的走向。经过如上映射，问题的核心又转变为如何定义 $\alpha_{pq}(t,x)$ ，论文认为该问题应该抽象为如下公式，
$\alpha_{pq}(t,x)=\left\{\begin{matrix} \frac{1}{p}\ \ \ \ if \ d_{tx}=0\\ 1 \ \ \ \ if \ d_{tx}=1\\ \frac{1}{q} \ \ \ \ if \ d_{tx}=2 \end{matrix}\right.$

该公式的辅助图示如下，
在这里插入图片描述
论文提到可以通过控制 $p$ 和 $q$ 的取值就能兼顾DFS和BFS，假如 $q$ 都很小，则更倾向于DFS，因为沿着一条路径继续深入的概率较大，如果 $q$ 很大且 $p$ 很小，则更倾向于BFS，因为 $t$ 的下一个遍历节点很大概率是 $t$ 的直连节点。

Node2Vec与RandomWalk的不同点之二在于Node2Vec利用alias采样对图中的路径进行快速采样，不熟悉alias采样的小伙伴可以参考这里。经过上述操作，就能将训练数据采样好。至于代码实现，可以参考这里。

2. Embedding向量学习

第1节将训练数据已经准备好，Embedding学习依然采用类似DeepWalk模型学习的方式，通过Word2Vec模型训练得到图中每个节点的Embedding向量。Word2Vec原理可以参考NLP（一）Word2Vec原理，DeepWalk中Word2Vec的应用可以参考推荐系统（二）Graph Embedding之DeepWalk。

参考

LightYoungLee

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
推荐系统（四）Graph Embedding之Node2Vec

本文主要介绍Node2Vec算法如何对RandomWalk算法进行改进，得到更加合理的训练数据，进而通过Word2Vec模型学习的方式得到图中每个节点的Embedding向量。
复制链接

扫一扫