详解Graph Embedding经典方法：算法原理、代码实现与应用样例

本文链接：https://blog.csdn.net/m0_74931167/article/details/137615459

本文详细介绍了几种经典的图嵌入方法，包括DeepWalk、LINE、node2vec和SDNE，涵盖了算法原理、代码实现和应用案例。DeepWalk使用随机游走模拟节点之间的关联；LINE则通过一阶和二阶相似度来捕获局部和全局结构；node2vec结合DFS和BFS策略进行有偏采样；SDNE利用深度学习保留图的局部和全局结构。文章提供GitHub链接以获取完整的代码实现，并展示了在Wiki数据集上的节点分类和可视化实验结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://github.com/shenweichen/GraphEmbedding

G = nx.read_edgelist(‘…/data/wiki/Wiki_edgelist.txt’,create_using=nx.DiGraph(),nodetype=None,data=[(‘weight’,int)])

model = DeepWalk(G,walk_length=10,num_walks=80,workers=1)

model.train(window_size=5,iter=3)

embeddings = model.get_embeddings()

evaluate_embeddings(embeddings)

plot_embeddings(embeddings)

▐ 分类任务结果

micro-F1 : 0.6674

macro-F1 : 0.5768

▐ 可视化结果

LINE

之前介绍过DeepWalk，DeepWalk使用DFS随机游走在图中进行节点采样，使用word2vec在采样的序列学习图中节点的向量表示。

LINE也是一种基于邻域相似假设的方法，只不过与DeepWalk使用DFS构造邻域不同的是，LINE可以看作是一种使用BFS构造邻域的算法。此外，LINE还可以应用在带权图中(DeepWalk仅能用于无权图)。

之前还提到不同的graph embedding方法的一个主要区别是对图中顶点之间的相似度的定义不同，所以先看一下LINE对于相似度的定义。

▐ LINE 算法原理

1. 一种新的相似度定义

✎ first-order proximity

1阶相似度用于描述图中成对顶点之间的局部相似度，形式化描述为若之间存在直连边，则边权即为两个顶点的相似度，若不存在直连边，则1阶相似度为0。如上图，6和7之间存在直连边，且边权较大，则认为两者相似且1阶相似度较高，而5和6之间不存在直连边，则两者间1阶相似度为0。

✎ second-order proximity

仅有1阶相似度就够了吗？显然不够，如上图，虽然5和6之间不存在直连边，但是他们有很多相同的邻居顶点(1,2,3,4)，这其实也可以表明5和6是相似的，而2阶相似度就是用来描述这种关系的。形式化定义为，令表示顶点与所有其他顶点间的1阶相似度，则与的2阶相似度可以通过和的相似度表示。若与之间不存在相同的邻居顶点，则2阶相似度为0。