node2vec: Scalable Feature Learning for Networks论文解读

最新推荐文章于 2023-02-26 22:19:36 发布

MeteorMan99

最新推荐文章于 2023-02-26 22:19:36 发布

阅读量2.2k

点赞数 1

分类专栏：图表示学习文章标签： word2vec node embedding

本文链接：https://blog.csdn.net/weixin_34613450/article/details/87855031

版权

图表示学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

node2vec在DeepWalk的基础上，定义了一个bias random walk的策略生成序列，仍然用skip gram去训练。
论文分析了BFS和DFS两种游走方式，保留的网络结构信息是不一样的。
DeepWalk中根据边的权重进行随机游走，而node2vec加了一个权重调整参数α：t是上一个节点，v是最新节点，x是候选下一个节点。d(t,x)是t到候选节点的最小跳数。
通过不同的p和q参数设置，来达到保留不同信息的目的。当p和q都是1.0的时候，它等价于DeepWalk。

本文的特征抽取方式类似于聚类分析的非监督方法，本质上都是利用相邻节点之间的联系。文中提到了网络中的节点一般有两种相似度量：1.内容相似性，2.结构相似性。其中内容相似性主要是相邻节点之间的相似性，而结构上相似的的点并不一定是相邻的，可能隔得很远，这也是文中为何要把BFS和DFS相结合来选择邻居节点的原因。

文章的主要想法就是，利用SkipGram的方法，来为Networks抽取Representation。那么，自然，根据SkipGram的思路，最重要的就是定义这个Context，或者说是Neighborhood。从文本的角度来说，这个Neighborhood当然就是当前Word周围的字，这个定义非常自然。但是对于Graph或者Network来说就来得没那么容易了。

文章阐述了一般所采用Depth-First Search或者是Breadth-First Search来Sample一个Node的周边Node的问题。简单来说，BFS比较容易有一个Microscopic的View而DFS容易有一个Macro-view，两者都有Representative的问题。

文章的核心思想是采用Random Walk来代替DFS或者BFS。文章定义了一种二阶的Random Walk，拥有两个参数，来控制多大的概率反复经过一些Node和控制所谓的Inward和Outward。总之，整个Random Walk的目的就是在DFS和BFS之间采取某种平衡。

文章虽然提出的是关于Node Feature提取的算法，但是Edge Feature也可以很容易从Node Feature导出。

总体感觉是，硬要用SkipGram或者WordVec的想法在Networks上做，还显得比较牵强。因为有这个Neighborhood的概念，在Graph上，反而不是那么直观得定义，因此所有类似的工作都显得比较别扭。当然，这篇文章也不失为一种不错的Heuristic。

实现：https://github.com/aditya-grover/node2vec

运行：python src/main.py --input graph/karate.edgelist --output emb/karate.emd

输入数据可视化：