从Deepwalk到Node2vec

最新推荐文章于 2024-04-12 16:17:52 发布

炼丹笔记

最新推荐文章于 2024-04-12 16:17:52 发布

阅读量384

点赞数

文章标签：算法机器学习人工智能深度学习 python

本文链接：https://blog.csdn.net/m0_52122378/article/details/118875359

版权

本文探讨了Deepwalk算法的局限性，并介绍了Node2vec的游走框架，它结合BFS和DFS策略以捕捉图中的同质关系和拓扑关系。Node2vec通过调整参数p和q控制游走策略，当p=q=1时退化为Deepwalk。实验表明，参数选择对模型性能（如F1-score）影响显著，但能取得优于Deepwalk的性能。文章还简要提及了Node2vec的实现代码。

摘要由CSDN通过智能技术生成

上篇谈到了deepwalk,整体流程就是按均匀分布从当前节点走到下一个节点,从而采样到一条条“句子”,但是这样采样方式一定是对的吗?边上是否有权重影响呢?走回头路的概率也是等于选择其他邻居节点的.为了使得walk的更合理,node2vec这篇论文给了一个通用的“游走”框架.同样是通过游走产生句子,然后通过w2v产出向量.

DOTA：大有可为的GNN：DeepWalk

Node2vec

BFS和DFS大家再熟悉不过,node2vec就是结合了这两种方式进行采样.为什么要结合这两种方式呢?因为对于图而言,我们希望每个节点最终学到的向量既表达了同质关系也表达了拓扑关系.比如上图中u和S1是相似的,因为他们之间空间上相近.又比如u和S6是相似的,虽然u和S6之间距离较远,但是因为u和S6周围都围绕了4个节点,所以他们从拓扑上看是类似的.所以如何才能让学到的向量能表达这种信息呢?node2vec就提出了一种随机游走的框架,如下图:

每个边都有权重,当前节点的所有边权重归一化后就是当前节点到其他节点的概率.从上图中我们可以看到,一共有3种类型的边权重,第一种是<v,t>表示当前节点v和上一个节点之间的边权重为1/p,第二种是<v,x1>表示当前节点和临接上一个节点t的边权重为1,第三种就是<v, other>表示与其他节点的边权重为1/q.聪明的炼丹师已经发现,只要p=q=1,就是deepwalk.通过这种框架,如果p在0~1表示算法偏向于走回头路,如果p>1则算法偏向于远离上一个节点.同理如果q在0~1之间,则算法偏向于选择远离t,否则倾向于接近t.整个算法表示如下所示: