【从零开始】CS224W-图机器学习-2021冬季学习笔记3.1：Node Embeddings

要不断变强的LSY

已于 2022-08-17 12:52:08 修改

阅读量422

点赞数 2

分类专栏： CS224W 图机器学习笔记文章标签：机器学习人工智能算法

于 2022-08-13 18:08:31 首次发布

本文链接：https://blog.csdn.net/leisongyuan/article/details/126280989

版权

CS224W 图机器学习笔记专栏收录该内容

13 篇文章 5 订阅

订阅专栏

课程主页：CS224W | Home
课程视频链接：斯坦福CS224W《图机器学习》课程(2021) by Jure Leskovec

文章目录

1 前言（图表示学习介绍）

传统的图机器学习一般包含以下四个步骤，大部分的工作都花费在了特征工程(Feature Engineering)中,而图表示学习(Graph Representation Learing)能自动得到结构化的特征，所以图表示学习取代了特征工程的位置。

图表示学习的目标：有效地自动学习到图中用于机器学习的、与下游任务无关的特征。

如上图所示，将一个节点的信息映射到一个多维向量中，这个向量储存了节点的结构信息，通常被称为特征表示(Feature representation)或嵌入(embedding)。

那么为什么要嵌入(Embedding)呢？因为：

节点之间的嵌入程度表明了它们在网络中的相似性，如：有边连接的两个点对应的embedding应该离得更近；
Embedding能自动对网络的结构信息进行编码；
Embedding可用于下游预测任务，如：节点分类、链接预测、聚类等。

举例：使用DeepWalk算法将节点嵌入到二维空间中，可以看到Output将不同类的节点很好地分开了：

2 节点嵌入：编码器和解码器

定义：图 $G$ 、节点集合 $V$ 、图的邻接矩阵 $A$ （简化起见：不考虑节点的特征或其他信息）

节点嵌入的目标：将节点编码到embedding space中，并使得embedding的相似度（通常选择向量点积表示）和原始图中节点的相似度（需要被定义）尽可能接近。

在学习节点嵌入的过程中，还需要定义以下几个重要的部分：

编码器Encoder：将每个节点都映射到一个d维的向量空间中：（d通常是64-1000维）

similarity(u,v)：衡量节点相似度的函数（如：衡量原始网络中节点相似度的函数）
解码器Decoder：将embedding通过点积得到节点相似度得分

学习节点嵌入的过程，就是不断优化Encoder的参数，使得点积最大化，使得下列式子越来越接近的过程：

举例：最简单的编码方式——编码器仅进行嵌入的查找

我们将所有的节点嵌入到矩阵 $Z$ 中，每一列代表一个节点的嵌入，我们的目标就是不断学习优化 $Z$ 矩阵，而列向量 $v$ 仅仅起到定位节点v的作用（除节点v对应位置为1外，其他位置为0，类似于one-hot编码），两个矩阵相乘即代表查找节点v的embedding的过程。

缺点：当网络中存在大量节点时，矩阵的维数也会变得很大，计算花销非常巨大，不具有可扩展性；

优点：如果得到了 $Z$ ，各节点的embedding就能很快被查找到。

类似于这种分别学习每个节点的嵌入的方法还有：DeepWalk、node2vec。

节点嵌入小结

节点嵌入是一种无监督学习/自监督学习方法，无需使用节点的标签和特征；
节点嵌入的目标是估计节点的一组坐标(即嵌入)，这组坐标在一定程度上保留了网络的结构；
节点嵌入是一个独立于下游任务的过程，只根据网络本身进行训练，适用于任何下游任务。

3 使用随机游走来实现节点嵌入

上文一直提到节点相似度函数similarity(u,v)的定义，但是从未下定义。关于节点嵌入的方法有很多，他们的核心区别就在于对节点相似度的定义不同，对相似度的定义通常有以下几个角度：

节点间是否有边相连
节点间是否有很多共同的邻居
两个节点周围的网络结构类似等

接下来，我们将要学习用随机游走的方式来定义节点相似度，并学习如何来优化这样定义后的嵌入。

3.1 定义

节点u的embedding $z_{u}$ （我们的目标），从u节点开始随机游走到达v节点的预测概率 $P(v\mid z_{u})$ ，用于衡量节点u和节点v之间的相似性。

在之后，会用到Softmax和Sigmoid两个计算预测概率的非线性函数，简单介绍如下：

Softmax函数将返回一组包含个k数据的向量，且这些数据的和归一化为1，能体现数据的概率分布。其定义为 $Softmax(z_{i})=\frac{exp\left ( z_{i} \right )}{\sum_{k}^{}exp\left ( z_{k} \right )}$ ，其中 $z_{i}$ 是第 $i$ 个节点的输出， $k$ 为输出节点的个数。
Sigmoid函数会将实数归一化到 (0,1) 上。

随机游走的大致过程：从某一节点开始，每一步随机选一个邻居走过去，不断重复。

这样，我们就可以认为： $z_{u}^{T}z{_{v}}\approx$ 节点u和v在随机游走过程中共同出现的概率。（即节点v在以节点u为起点的随机游走中出现的概率）

随机游走的步骤：

用随机游走策略 $R$ 估计节点v在以节点u为起点的随机游走中出现的概率。
用embedding空间中的相似性（如向量点积）来编码节点经过随机游走得出来的相似性。

随机游走的优势：

表现力强：为节点相似度提供了一个灵活的随机定义，将本地和高阶的邻居信息都包含了进去。比如：如果从节点u随机游走到达节点v的可能性高，说明u和v是相似的，他们也许有相似的邻居，也许彼此离的很近，也许它们之间有多条路径相连等等。
高效：我们在训练随机游走模型时不需要考虑所有节点对，只需要考虑在随机游走过程中出现的节点对即可。

随机游走是一个无监督特征学习的过程，我们的目的是在d维空间中找到能够保存节点间相似度的节点嵌入，即在网络中邻近的节点在嵌入空间中依然邻近。
所以，我们定义 $N_{R}\left ( u \right )$ 表示以随机游走策略 $R$ 取得的与节点 $u$ 的邻近节点集（取代上文中节点v的位置）。注意，因为同一个节点可能被多次访问到，所以 $N_{R}\left ( u \right )$ 中可能出现多次同一节点。