CS224W Lecture3笔记

最新推荐文章于 2024-07-10 16:50:08 发布

lzk_nus

最新推荐文章于 2024-07-10 16:50:08 发布

阅读量360

点赞数

本文链接：https://blog.csdn.net/qq_42791848/article/details/122444776

版权

Deep Learning 同时被 3 个专栏收录

43 篇文章 4 订阅

订阅专栏

Graph Neural Network

5 篇文章 0 订阅

订阅专栏

Stanford CS224W

5 篇文章 0 订阅

订阅专栏

Node Embedding

lecture2中介绍的是一些传统的feature engineering，这节课所介绍的是更加高效、task-independent的node embedding，类似于word2vec。lecture中主要介绍了两种比较流行的方法：DeepWalk和Node2Vec

Encoder-Decoder Framework

Node Embedding遵循的还是一种Encoder-Decoder的模式。Encoder负责将原来的node映射到embedding space，decoder负责将node embedding映射到similarity score，而我们的目标是最小化这个score与原来node之间的similarity（待定义）来优化encoder中的参数。因此，Node Embedding中的Encoder-Decoder架构主要有四个部分：

Encoder maps from nodes to embedding space
Define a node similarity （i.e., a similarity function to measure similarity of nodes in the original network）
Decoder maps from embedding space to similarity score
Optimize the parameter to minimize: $similarity(u,v)\ -\ DEC(z_u, z_v)|$

DeepWalk

一种embedding的方法是DeepWalk，DeepWalk的主要方法Random Walk。在Encoder-Decoder模式中我们提到我们需要定义original network中结点之间的similarity，而Random Walk就是一种度量结点之间相似度的方法。

Random Walk

随机游走的定义是：给定图 $G$ ，从某个结点 $u$ 出发，我们在每一步随机地选择邻居节点并移动，于是我们就能得到一个结点序列，我们就称这个序列叫做一个random walk。

我们认为在同一个random walk上的结点相似度是比较高的。random walk有两个优点：

expressivity：随机游走通过随机选取neighbor来移动，能够比较好的捕获局部和更高阶的neighborhood信息，能够使得embedding的表达能力比较强。
efficiency：我们不需要考虑图中任意两个结点，只需要考虑在random walk中同时出现的pair即可，极大的节省了计算的消耗。

Objective Function

DeepWalk目标函数的设计与SkipGram有相似之处。SkipGram是通过中心词来预测周围词，优化的目标的极大似然函数。而在DeepWalk中，我们令 $p_{R}(v|u)$ 表示从结点 $u$ 出发采用随机游走策略 $R$ ， $v$ 和 $u$ 同时出现在 $R$ 上的概率。简言之，就是用当前结点 $u$ 来预测其邻居 $N_R(u)$ 。我们希望的是对于相似的两个结点 $u 、 v$ ， $p (v ∣ u)$ 应该尽可能大，并且认为 $N_R(u)$ 中的结点相互之间是独立的（独立性假设），那么对于整张图的目标函数就是：
$maximize\ \ \ \ \ \ \ \ \sum_{u \in V}p(N_R(u)|u)\ =\ \sum_{u \in V} \prod_{v \in N(u)} p(v|u)$
我们使用极大似然估计，然后取反就得到：
$minimize\ \ \ \ \ \ \ \ -\sum_{u \in V}\sum_{v \in N(u)} log(p(v|u))$
下面来看如何计算 $p (v ∣ u)$ 。我们令 $z_u$ 表示结点 $u$ 的embedding，用 $z_u \cdot z_v$ 来计算embedding space中两个结点 $u$ 和 $v$ 的相似程度（余弦相似度）。我们说在同一个random walk中出现的两个结点可以被认为是相似程度比较大的，因此 $p (v ∣ u)$ 也可以被看作是原图中 $u 、 v$ 相似的概率，我们在Encoder-Decoder模式中提到我们的目标是最小化原图中相似度与embedding space中相似度之间的差距，于是 $p (v ∣ u)$ 就可以用softmax来计算：
$p(v|u)\ =\ \frac{exp(z_u \cdot z_v)}{\sum_{v' \in N(u)}{exp(z_u \cdot z_{v'})}}$
那么目标函数就可以改写为：
$minimize\ \ \ \ \ \ \ \ -\sum_{u \in V}\sum_{v \in N(u)} log(\frac{exp(z_u \cdot z_v)}{\sum_{v' \in N(u)}{exp(z_u \cdot z_{v'})}})$
也就是：
$minimize\ \ \ \ \ \ \ \ -\sum_{u \in V}\sum_{v \in N(u)} z_u \cdot z_v\ -\ log(\sum_{v' \in N(u)}{exp(z_u \cdot z_{v'})})$
这是一个凸函数，因此我们可以采用梯度下降来进行优化

Negative Sampling

上面的式子有一个问题，就是后面的log归一化项计算成本比较高，复杂度是 $O (∣ V ∣)$ 的，因此需要进一步优化这个目标函数。那么这里遇到的问题和解决方案就都和SkipGram相同了，我们采取的策略是负采样。选取 $k$ 个负例，将softmax变成sigmoid，就可以把 $log\ p(v|u)$ 改写为：
$log\ p(v|u)\ \approx \ log(\sigma({z_u\cdot z_v}))\ -\ \sum_{i=1}^{k}log(\sigma{(z_u \cdot z_{v_i})})$
这样一来我们计算的复杂度就可以从 $O(|V|^3)$ 降到 $O(k|V|^2)$

DeepWalk Procedure

下面来总结一下DeepWalk的整体流程：

对于图 $G$ 中的每个结点 $u$ ，跑一个fixed-length、unbiased的random walk
根据random walk统计每个结点 $u$ 的neighborhood $N (u)$
优化似然函数： $-\sum_{u \in V}\sum_{v \in N(u)} {log\ p(v|u)}$

Node2vec

DeepWalk采用的是fixed-length、unbiased的random walk，而node2vec在DeepWalk上做了改进，采用的是flexible、biased的random walk，以此来获得更好的neighborhood特征。

2-nd Order Biased Random Walk

对于图中任意结点 $u$ ，我们跑一个长度为 $l$ 的random walk，令 $c_i$ 表示该random walk中第 $i$ 个结点，于是
$p(c_{i+1}=x|c_{i}=v)\ =\ \begin{cases} \frac{\pi_{vx}}{Z} \ \ \ \ \ (v,x) \in E \\ \ \ 0 \ \ \ \ \ \ \ otherwise \end{cases}$
这里 $\pi_{vx}$ 表示没有归一化的概率。如果是无偏的，那么 $\pi_{vx}\ =\ w_{vx}\ =\ 1$ ，而node2vec是有偏的random walk，因此我们定义2-nd order biased random walk with 2 parameters $p, q$ ，令 $\pi_{vx}\ =\ \alpha_{pq}(t,x) \cdot w_{vx}$ ，这里的 $\alpha_{pq}$ 就是权重，计算公式为：
$\alpha_{pq}(t,x)\ =\ \begin{cases} 1/p \ \ \ \ \ \ d_{tx}=0 \\ 1 \ \ \ \ \ \ \ \ \ \ d_{tx}=1 \\ 1/q \ \ \ \ \ \ d_{tx}=2 \end{cases}$
其中 $d_{tx}$ 表示结点 $t$ 和结点 $x$ 之间的最短路长度。我们发现突然又多了一个结点 $t$ ，其实这个结点 $t$ 是与 $v$ 相连的，可以看作是random walk中第 $i - 1$ 个结点，不难看出我们每次是考虑random walk中连续的三个结点，这也就是为什么我们叫做second order（2-nd Markovian Chain）。下图说明了这里的有偏random walk的权重是怎么定义的

在这里插入图片描述

Return Parameter

我们称 $p$ 为return parameter。从上面的公式也能明白， $d_{tx}=0$ 也就是我们从结点 $v$ 走回了结点 $t$ 。当 $p$ 比较大时，我们走回结点 $t$ 的概率比较小，当 $p$ 比较小时，我们有更大的概率走回 $t$ 。

In-Out Parameter

我们称 $q$ 为in-out parameter，in和out分别对应着 $\gt 1$ 和 $\lt 1$ 的情况。当 $\gt 1$ ， $1/q\ \lt\ 1$ ，我们自然会更倾向于走 $d_{tx}=1$ 的结点，也就是上图中的 $x_1$ ，这类结点的共性就是它们都是直接与结点 $t$ 相连的结点，我们可以通过BFS来获得；当 $\lt 1$ ， $\gt 1$ ，我们会更倾向于走 $d_{tx}=2$ 的结点，也就是上图中的 $x_2,x_3$ ，这类结点的共性就是它们都是进一步远离结点 $t$ ，我们可以通过DFS来获得。

到这里就清楚了，我们的biased其实就是通过灵活的在BFS和DFS之间切换来实现的，BFS可以帮助我们捕获local信息，DFS可以帮助我们捕获global信息。如果想要BFS like，那就采用lower p，higher q；如果想要DFS like，那就采用higher p，lower q。

在这里插入图片描述

Node2vec Algorithm

在这里插入图片描述

lzk_nus

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS224W Lecture3笔记

Node Embeddinglecture2中介绍的是一些传统的feature engineering，这节课所介绍的是更加高效、task-independent的node embedding，类似于word2vec。lecture中主要介绍了两种比较流行的方法：DeepWalk和Node2VecEncoder-Decoder FrameworkNode Embedding遵循的还是一种Encoder-Decoder的模式。Encoder负责将原来的node映射到embedding space，dec
复制链接

扫一扫