《图机器学习》-Node Embeddings

白色的生活

已于 2023-01-11 11:20:23 修改

阅读量735

点赞数 4

分类专栏：图机器学习文章标签：人工智能深度学习

于 2023-01-10 18:33:52 首次发布

本文链接：https://blog.csdn.net/GuoShao_/article/details/128625559

版权

图机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Node Embeddings

一、Graph Representation Learning
二、Node Embeddings：Encoder and Decoder
三、Random Walk Approaches for Node Embeddings
四、Embedding Entire Graphs

一、Graph Representation Learning

在传统的图机器学习中，依赖于手工特征工程(即由特征工程师去设计节点、边、图的features)；给定一个输入图，依靠人工去提取节点、链接和图级特征，学习将特征映射到标签的模型(SVM、神经网络等)。流程表示如下图：

在这里插入图片描述

为了去掉手工特征工程这一步，提出了图表示学习(Graph Representation Learning)；换句话说：图表示学习移除了每次都进行特征工程的需要。

在这里插入图片描述

Graph Representation Learning的目标：
输入一张图 $G$ ，能够学习一个函数 $f$ 将节点 $v$ 映射到一个 $d$ 维的空间。即将图 $G$ 嵌入到一个 $d$ 维空间。

在这里插入图片描述

这个映射后的 $d$ 维向量称为feature representation或embedding。

Embedding的任务:
将节点映射到embedding space中，即将节点统一映射到一个 $d$ 维空间。

嵌入后，在 $d$ 维空间中节点间的相似性能够表示节点在图中的相似性。
- 如：将一个简单网络映射到二维空间中，在二维空间中相同类的节点在距离上是比较接近的。
可以使用Encode network来实现映射
映射后的 $d$ 维向量可以直接用于下游任务的预测

第一小节主要讲的是，希望能够避免人工的去设计feature，而是由模型自动完成。所以提出了Graph Representation Learning，任务是输入一张图的信息，如邻接矩阵，然后通过模型(编码器)将图 $G$ 的节点映射到一个新的空间，在使用这个节点在新空间所代表的向量来实现实际的任务。
上述内容不理解，可以先看一下吴恩达老师的词嵌入视频，都是类似的。【笔记指路】

二、Node Embeddings：Encoder and Decoder

假设我们有一张图 $G$ ：

$V$ 是顶点集
$A$ 是邻接矩阵

在这里插入图片描述

节点嵌入的目标：
对节点进行编码，以便嵌入空间中的相似性接近图中的相似性；

如下图，在图上的相似度在新的嵌入空间中也能够体现。
在这里插入图片描述

在embedding space上的相似度可以使用向量的内积来表示，所以我们的目标可写成：
$similarity(u,v)≈z_v^Tz_u$
在这里插入图片描述

为什么内积可作为新空间的相似度度量？(个人见解)
每个节点都在新空间上都由一个 $d$ 维的向量表示，向量的每个原始都表示节点的一个属性，该属性越明显，则该值就越大。若两个节点之间都具有这个属性，那么内积的结果就会越大。(类似CNN的卷积)

学习节点嵌入的方法：

训练一个编码器(Encoder,ENC)将节点映射到embedding space
定义一个节点相似度函数(即原始网络中相似度的度量)
训练一个解码器(Decoder,DEC)将embeddings映射为相似度得分
优化编码器的参数，使:
$similarity(u,v)≈z_v^Tz_u$

个人理解：
内积可能不是能够很好的表示两个节点在新空间的相似度，所以训练了一个解码器用于输出两节点在新空间的相似性，上式可写成：
$similarity(u,v)≈DEC(z_v^Tz_u)$

实际运用中，先定义一个矩阵 $Z∈R^{d\times |V|}$ ， $d$ 维表示embedding space的维度， $∣ V ∣$ 表示节点的数量。即 $Z$ 中的每一列都代表这一个节点的embedding。

在这里插入图片描述

对于原始图中的节点表示，可以使用one-hot编码来表示；在我们训练模型学习到最佳的矩阵 $Z$ 后，编码器只是一个嵌入查找：

$ENC(v)=z_v=Z\cdot v$

这种方式的缺点：
$Z$ 的维度与节点数成正比，因此难以运用于大图中。

获取矩阵 $Z$ 的方式有很多种，经典的有：

Deep Walk
node2vec

三、Random Walk Approaches for Node Embeddings

符号规定：

$z_u$ ：
一个列向量，表示节点 $u 的$ $e mb e dd in g$
$P(v|z_u)：$
从 $u$ 节点开始随机游走，游走过程中遍历到 $v$ 节点的(预测的)概率。
$σ (z)$
Softmax函数， $σ(z)[i]=\frac{e^{z[i]}}{\sum_{j=1}^{K}e^{z[j]}}$
$S (x)$ ：
Sigmoid函数， $S(x)=\frac{1}{1+e^{-x}}$

$Random\ Walk：$

给定一个图和一个起点，随机选择它的一个邻居，并移动到这个邻居;然后我们随机选择这个点的一个邻居，并移动到它，迭代进行下去。以这种方式访问的点的(随机)序列成为在图上的随机游走。

在这里插入图片描述

随机游走路径上的节点在图中的距离是比较近的，所以相似度会较大，则路径上的顶点对的embedding内积也会相对较大，而embedding的内积是节点对在embedding space上的相似度。

因此可以得到下式：

$z_u^Tz_v≈u和v节点共同出现在一条随机游走路径上的概率$

我们希望出现在一条随机游走路径上的节点对的embedding的内积值会较大。

Random-Walk Embeddings流程：

估计从节点 $u$ 为起点，以随机行走策略 $R$ 随机行走中访问节点 $v$ 的概率 $P_R(v|u)$
优化embeddings以最大化 $P_R(v|u)$ ，优化embeddings的过程也相当于优化encoder了。

$Why\ Random\ Walks?$

Expressivity:
节点相似度的定义灵活随机，且结合了局部和高阶邻域的节点信息。
- Idea：
  如果从节点u开始的随机游走以高概率访问v，则u和v相似(高阶多跳信息)
Efficiency:
训练时不需要考虑所有节点对;只需要考虑在随机行走中同时出现的对

Random-Walk来寻找Node Embeddings，可以看作是一个半监督的feature learning。

目标：
找到在d维空间中保留相似性的节点嵌入。
要求：
学习Node Embeddings，使图中邻近的节点在d维空间中靠得很近

给定一个节点 $u$ ，如何定义 $u$ 在图中的邻近的节点呢？

以 $u$ 为起点，用随机游走策略 $R$ 进行游走，过程中访问到的节点可以当作 $u$ 的邻近节点 $N_R(u)$ 。

embedding feature的优化：

给定一个图 $G (V, E)$
我们的目标是学习一个映射函数 $f:u→R^d:f(u)=z_u$
Log-likelihood objective：
- $N_R(u)$ ：以游走策略 $R$ 游走 $u$ 的邻近节点
- 该式含义(个人理解)：
  邻近节点在原始图中距离较近，相似度会较大。在新的空间中，希望能够保持这个信息。 $P(N_R(u)|Z_u)$ 通过d维空间的向量 $z_u$ 来预测邻近节点出现在随机游走路径上的概率，希望这个概率越大越好。越大说明我能够通过 $z_u$ 来确定这几个邻近节点，这表明保留了原来的信息。
给定节点u，可以通过预测邻近节点的在随机游走路径中出现的概率来学习u的embedding feature。

$Random\ Walk\ Optimization：$

使用随机漫步策略R，从图中的每个节点 $u$ 开始运行较短的固定路径长度的随机游走。
对每个顶点 $u$ ，收集其邻近顶点 $N_R(u)$
优化embeddings通过：给定一个节点 $u$ ，预测它的邻近节点 $N_R(u)$ 。即最大化下式：
定义损失函数：
上式添加负号，变成最小化，即希望该值越小越好。

最小化 $L$ ，即优化嵌入特征z，以最大化随机游走过程中， $u$ 和 $v$ 共同出现的可能性
将 $P(v|z_u)$ 使用softmax进行定义：

分母的作用：标准化。
最大化这个概率，可以理解为，在预测所有顶点对同时出现在同一条游走概率的时候，多分配些概率给 $u$ 和 $v$ 。
综上，我们要最小化的式子为：

优化 random walk embeddings=找到最小化 $L$ 的embeddings $z_u$
采用随机梯度下降最小化函数 $L$ 。

有一个问题：
$P(v|z_u)$ 定义中，其分母需要遍历整张图的顶点对来计算，代价太大了。

在这里插入图片描述

希望能够采取某种策略计算出一个值，来近似接近这个值。

解决方案： $Negtive\ Sampling$ (负采样)

表征学习过程中,应尽量使每个中心节点与其邻居彼此靠近(嵌入向量相似)并远离所有其他节点。其他节点很多 ,为了减少计算成本，负采样 (NS)随机采样少量非邻居节点(负样本),中心节点只需要远离负样本即可。

即随机抽取 $k$ 个样本来进行标准化，替代使用所有顶点对进行标准化。如下图：

在这里插入图片描述

抽样k个负节点，节点的被抽取的概率与其度成比
如何选取 $k$ ?
- k越高，估计值越可靠
- k越高，负样本上的偏差bias越高
- 在实际中，k的选取为5-20

$Random\ Walk$ 策略：

最简单的想法:从每个节点开始进行固定长度、无偏倚的随机行走。
- 代表：DeepWalk，存在的问题：相似度概念受限
$n o d e 2 v ec$ ：
- 优点：有弹性的网络邻居 $N_R ( u )$ 定义使 $u$ 的embedding更丰富，因此使用有偏的二阶随机游走策略 $biased\ 2^{nd}\ order\ random\ walk$ 以产生 $N_R(u)$

$node2vec：Biased\ Walks$

思想：
使用灵活的、有偏差的随机游走，可以选择全局游走 $D FS$ 或者局部游走 $BFS$ ，生成信息更丰富的embeddings。

在这里插入图片描述

两种生成邻近节点的策略：

全局视角(DFS)和局部视角(BFS)，BFS会汇聚局部邻域内节点的信息，而DFS会汇聚更远距离的顶点的信息。如下图：

在这里插入图片描述
$BFS\ vs.\ DFS$ ：

定义两个参数：

return parameter $p$ ：
回到前一个节点的概率的控制参数
in-out parameter $q$ ：
往外游走(DFS)和往内游走(BFS)的比值，即选择BFS和DFS的概率的控制参数。

node2vec是一个二阶随机游走策略：
node2vec会记住刚有走过的边 $s_1,w)$ 和现在所处的顶点 $w$ 。

即每一步游走都会关注两个信息：1.当前位置、2.从哪条路来的。根据这两个信息可以进行下一步决策：

回到之前的位置
BFS
DFS

在这里插入图片描述

对于下一步随机游走的路径选择，如下图所示：
在这里插入图片描述
为不同的边赋上不同的权重，得到一个未归一化的概率矩阵 $P ro b$ ，通过将其归一化后根据概率选择其中一条边进行游走。

如果想要BFS-like walk，那么把p的值设小些；
如果想要DFS-like walk，那么把q的值设小些；

node2vec algorithm步骤：

在这里插入图片描述
上面三个步骤都是线性时间的复杂度，且可以独立并行的完成。

四、Embedding Entire Graphs

Embedding Entire Graphs的目标：
将整个图或者某个子图嵌入到embedding space，获取它的嵌入特征 $z_G$ ；如下图：

在这里插入图片描述
当获得图的embedding $z_G$ 后，我们可以完成图级的任务，如：

对分子进行分类，判断该分子是否有毒
识别异常图

$获取z_G的方式：$

$方式一：$

在(子)图上运行标准的嵌入方法(如DeepWalk、Node2Vec)，获取节点的embedding；再将所有节点的embedding求和(或者求平均)作为(子)图的 $z_G$ ，公式如下：

$z_G=\sum_{v∈G}z_v$

$z_G$ ：图G的embedding
$z_v$ ：顶点v的embedding

$方式二$ ：

创建一个虚拟节点(“virtual node”)，该节点与(子)图中的所有结点都相邻；然后在(子)图+虚拟节点上运行标准的嵌入方法，最后虚拟节点的embedding当作图 $G$ 的 $z_G$ ；如下图：
在这里插入图片描述
$方式三：Anonymos\ Walk\ Embedding$

anonymous walks中的状态对应在随机行走中第一次访问该节点的索引；即用一个索引来代替具体的节点，不知道访问节点的身份，如下图：

在这里插入图片描述

接下来以固定步长 $l$ 模拟anonymous walks ，并记录其计数；将该图表示为这些行走的概率分布。

如，设置 $l = 3$ ，那么使用一个5维的向量来表示一整图 $G$ ；5维是因为步长为3，有五种anonymous walks $w_i$ ：111、112、121、122、123。
在图 $G$ 中执行随机游走，将 $w_i$ 出现的概率作为图的特征表示，即 $z_{G}[i]=w_i$ 在图中出现的次数/概率。【有点类似BOW】

在图 $G$ 中模拟anonymous walks时，将anonymous walk的采样数定义为 $m$ ，然后将图 $G$ 表示为这 $m$ 条anonymous walks的概率分布。

$m$ 取多少合适呢？

我们希望分布的误差大于 $\varepsilon$ 。小于 $\delta：$
- $\eta$ 表示长度为 $l$ 的不同anonymous walks的总数
例子：
若 $l$ =7，有 $\eta=877$ 种anonymous walks，设置 $\varepsilon=0.1$ 、 $\delta=0.01$ ，然后我们需要生成 $m = 122500$ 条random walks实例。

单纯的使用anonymous walks出现的概率分布来表示一张图似乎不太精确。因此我们希望不是简单地用每次行走发生的次数的分数来表示，而是anonymous walk $w_i$ 的嵌入式表示embedding。

如何学习anonymous walk $w_i$ 的embedding呢？
想法：通过预测下一条出现的walk来优化 $z_G$

$Learn\ Walk\ Embeddings：$

目标：输入一张图 $G$ ，输出一个特征向量 $z_G$ ；即学习整张图 $G$ 的embedding。
方案：
学会预测 $\Delta$ -size窗口中同时出现的walks
- 例子：
  对节点 $1$ 进行采样，如下图；给定窗口为 $\Delta =2$ ，则要通过 $w_1、w_2$ 来预测 $w_3$
目标函数：
- $T$ :随机采样walks的个数，即上面提到的m

即在已知前 $\Delta$ walks和 $z_G$ 的情况下去预测下一步可能出现 $w_t$ 的概率，我们需要优化 $z_G$ 来最大化这个概率，这个过程也就是 $z_G$ 的学习过程。

每次将窗口向后移动一个去预测下一个walks的出现概率。预测 $\Delta+1$ ~T的walks的出现概率。