Graph Embedding——(4)Struc2vec理论

埘间海洋

已于 2022-01-29 00:02:15 修改

阅读量817

点赞数

分类专栏： GNN 文章标签：算法图论数据结构深度学习

于 2022-01-28 23:48:02 首次发布

本文链接：https://blog.csdn.net/qq_43760191/article/details/122738173

版权

GNN 专栏收录该内容

9 篇文章

订阅专栏

Struc2Vec是一种从空间结构相似性角度定义顶点相似度的算法。该算法通过计算顶点间的结构距离来衡量它们的相似度，即使它们不在同一社区内。它通过构建多层加权图并利用随机游走进行顶点序列采样，最终使用Skip-Gram模型生成节点嵌入。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Struc2vec理论

1)介绍

Struc2Vec是从空间结构相似性的角度定义顶点相似度的。

根据下图，如果在基于近邻相似的模型中，顶点 $u$ 和顶点 $v$ 是不相似的，第一他们不直接相连，第二他们不共享任何邻居顶点。

而在struc2vec的假设中，顶点 $u$ 和顶点 $v$ 是具有空间结构相似的。他们的度数分别为5和4，分别连接3个和2个三角形结构，通过2个顶点 $(d, e; x, w)$ 和网络的其他部分相连。

直观来看，具有相同度数的顶点是结构相似的，若各自邻接顶点仍然具有相同度数，那么他们的相似度就更高。

在这里插入图片描述

2)距离定义

令 $R_k(u)$ 表示到顶点 $u$ 距离为 $k$ 的顶点集合，则 $R_1(u)$ 表示是 $u$ 的直接相连近邻集合。

令 $s (S)$ 表示顶点集合 $S$ 的有序度序列。

通过比较两个顶点之间距离为k的环路上的有序度序列可以推出一种层次化衡量结构相似度的方法。

令 $f_k(u,v)$ 表示顶点 $u$ 和 $v$ 之间距离为 $k$ （这里的距离 $k$ 实际上是指距离小于等于 $k$ 的节点集合）的环路上的结构距离(注意是距离，不是相似度)。
$f_k(u,v)=f_{k-1}(u,v)+g(s(R_k(u)),s(R_k(v))),\\ k\geq 0 \quad and \quad |R_k(u)|,|R_k(v)| >0$
其中 $g(D_1,D_2)\geq 0$ 是衡量有序度序列 $D_1$ 和 $D_2$ 的距离的函数，并且 $f_{-1}=0$

由于 $s(R_k(u))$ 和 $s(R_k(v))$ 的长度不同，并且可能含有重复元素。所以文章采用了**Dynamic Time Warping(DTW)**来衡量两个有序度序列。

在这里插入图片描述

基于DTW，定义元素之间的距离函数: $d(a,b)=\frac{max(a,b)}{min(a,b)}-1$

这个距离函数实际上惩罚了当两个顶点的度数都比较小的时候两者的差异。举例来说 $a = 1, b = 2$ 情况下的距离为1， $a = 101, b = 102$ 情况下的距离差异为0.0099。

3)构建多层带权重图

根据上一节的距离定义，对于每一个 $k$ 我们都可以计算出两个顶点之间的一个距离，现在要做的是通过上一节得到的顶点之间的有序度序列距离来构建一个层次化的带权图（用于后续的随机游走)。

在这里插入图片描述

我们定义在某一层k中两个顶点的边权为: $w_k(u,v)=e^{-f_k(u,v)},k=0,\cdots ,k^*$

这样定义的边权都是小于1的，当且仅当距离为0的是时候，边权为1。

通过有向边将属于不同层次的同一顶点连接起来，具体来说，对每个顶点，都会和其对应的上层顶点还有下层顶点相连。边权定义为:

$w(u_k,u_{k+1})=\log(\Gamma_k(u)+e),k=0,\cdots, k^*-1$

$w(u_k,u_{k-1})=1$

其中 $\Gamma_k(u)$ 是第 $k$ 层与 $u$ 相连的边的边权大于平均边权的边的数量。

$\Gamma_k(u)=\sum_{v\in V}1\quad(w_k(u,v)>\overline{w}_k)$ ， $\overline{w}_k$ 就是第 $k$ 层所有边权的平均值。

4)采样获取顶点序列

使用有偏随机游走在构造出的图中进行顶点序列采样。每次采样时，首先决定是在当前层游走，还是切换到上下层的层游走。

1.本层游走

若决定在当前层游走，设当前处于第 $k$ 层，则从顶点 $u$ 到顶点 $v$ 的概率为：
$p_k(u,v)=\frac{e^{-f_k(u,v)}}{Z_k(u)}$
其中 $Z_K(u)=\sum_{v\in V,v\not= u}e^{-f_k(u,v)}$ 是第 $k$ 层中关于顶点 $u$ 的归一化因子。