graph embedding 第二篇 node2vec and sdne

一只小菜狗:D

已于 2022-02-17 15:42:45 修改

阅读量427

点赞数 1

分类专栏： recommend 文章标签：深度学习机器学习

于 2021-12-03 16:27:51 首次发布

本文链接：https://blog.csdn.net/init__/article/details/121657915

版权

recommend 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文深入探讨了图嵌入方法中的Node2Vec和SDNE。Node2Vec通过灵活的随机游走策略，兼顾局部和全局网络结构，以增强节点的特征表达。其参数p和q分别控制重复访问和探索方向。SDNE则利用一阶和二阶邻近度，通过深度自编码器保留网络的局部和全局结构，通过联合训练实现更好的网络表示。

摘要由CSDN通过智能技术生成

承接上文 graph embedding第一篇——deepwalk and line 本篇主要介绍Node2vec与SDNE，下一篇主要介绍各个大厂是怎么应用graph embedding的。

参考

graph embedding
深度学习中不得不学的Graph Embedding方法
 Embedding从入门到专家必读的十篇论文
 DNN论文分享 - Item2vec
从KDD 2018最佳论文看Airbnb实时搜索排序中的Embedding技巧
 Negative-Sampling Word-Embedding Method
推荐系统遇上深度学习(四十四)-Airbnb实时搜索排序中的Embedding技巧
 理论优美的深度信念网络，Hinton老爷子北大最新演讲

Node2Vec

node2vec: Scalable Feature Learning for Networks
node2vec code

Deepwalk，line 的目标为：尽可能在低维空间中保留原始空间中的邻域关系。不同的采样策略将导致不同的邻域关系，因此能够学到不同的顶点表达。这也是deepwalk，line这类工作的主要缺点：不能为采样过程提供灵活性。

比如对于下图：
在这里插入图片描述

$u$ 和 $s_1$ 是相似的，因为他们属于同一个社区（根据deepwalk,line同样可以得到）
$u$ 和 $s_6$ 是相似的，虽然他们不属于同一个社区，但是它们属于⽹络的同⼀种特殊连接模式。

因此，node2vec的方法就是想用一种灵活地算法采样到上述两种可能，从而使得顶点的representation具有更强的特征表达。我们来看两种极端的采样策略：
在这里插入图片描述
可以看出，BFS和DFS不同的采样策略能够帮助我们在上文中描述的两种规则之间选择，node2vec提供了一种能够采样策略，使得我们可以平滑的在BFS和DFS之间选择。

同样的，采用随机游走的方式采样，对于顶点 $c_i$ 的采样策略为：
在这里插入图片描述
对于其中 $\pi_{vx}$ 的定义为：

即 $x$ 的取值范围是有限的，只能选择 $t$ 本身，其一阶邻域与其二阶邻域。

return parameter p：控制重新访问上一步已访问节点的概率。如果 $p > m a x (1, q)$ 则接下来访问的顶点不大可能是上一步已经访问过的顶点；反之，一个较小的值会使得访问上一步已经访问过顶点的概率大幅增加。
in-out paramter q：控制探索方向是向内搜索还是向外搜索。如果 $q > 1$ 那么倾向于向内搜索，类似BFS；反之倾向向外搜索，类似DFS。

其算法如下：
在这里插入图片描述

SDNE

Structural Deep Network Embedding

node2vec是想要通过一种灵活地采样方式从而保留网络的全局信息和局部信息，而SDNE是想要通过一阶邻近度和二阶邻近度 保留其网络结构；与LINE不同的是，LINE(1st)与LINE(2nd)不是共同训练的，在无监督学习中甚至没法将二者结合起来，SDNE提出一种保留一阶邻近度和二阶邻近度的方法，因此得到的embedding不仅具有网络的局部结构，更有网络的全局结构。

问题描述：
图 $G = (V, E)$ ， $V$ 是所有顶点的集合， $E$ 是所有边的集合，对于顶点对 $v_i,v_j)$ 的权重为 $s_{i,j}$ 。