Deepwalk笔记

最新推荐文章于 2022-06-15 16:28:57 发布

置顶

Deeachain

最新推荐文章于 2022-06-15 16:28:57 发布

阅读量533

点赞数 2

分类专栏：知识图谱文章标签：自然语言处理

本文链接：https://blog.csdn.net/Deeachain/article/details/108149554

版权

DeepWalk: Online Learning of Social Representations

Github整理代码链接，欢迎讨论和交流，觉得有用的可以Star一下。

1.主要思想

Deepwalk是一种将随机游走（Random walk）和Word2Vec两种算法相结合的图表示算法。网络的输入是一张图或者一个网络，输出为网络中顶点的低维向量表示（Embedding）。图1(b)为了可视化将向量映射到二维平面上，相同颜色的顶点具有更近的距离。

图1 图表示示意图

引入Word2Vec的原因，随机游走的路径集合中的顶点频率和NLP中语料库的词频分布比较相似。

图2 顶点频率和词频对比

2.总体流程

①输入一张图，随机给定当前访问起始点，从邻居中随机采样顶点作为下一个顶点，重复此过程，直到访问序列长度和序列个数满足预设条件

②获得顶点访问序列后，采用Word2vec中的Skip-Gram模型进行向量学习，将离散的网络节点向量化，最大化节点共现，就能得到每个节点的Embedding，在计算上使用Hierarchical Softmax进行优化，降低计算复杂度

2.1 Random walk

图3 包含个节点的图

如图3红色线段所示，以V1顶点为起始点，每次从邻居顶点中随机选择一个顶点作为下一步顶点，游走8步到达V9顶点，即可得到一条顶点数为9的随机游走路径。n个顶点不断重复随机游走k条路径构成一个k*n大小的路径集合。

2.2 Skip-Gram

2.2.1 介绍

NLP中Word2Vec中Skip-Gram目的是将一个高维的onehot向量映射到一个低维连续的向量。将该方式引入图嵌入上，将路径集合中的不重复的顶点构成大小为V的字典，方便以onehot方式表达每个顶点，将随机游走得到的一条路径看作一个序列，例如V1->V2->V3-V4->V5->V6->V7->V8->V9序列长度为9。

Skip-Gram主要思想是利用中心词预测其上下文单词，最大化上下文共现，设置窗口 $w$ （句子中当前词与预测词之间的最大距离）大小为4，用中心顶点V5预测其前面4个顶点和后面4个顶点（称之为上下文），公式中 $x_i$ 为顶点的向量表达，最大化优化目标P（x₁,x₂,x₃,x₄,x₆,x₇,x₈,x₉|x₅）。

图4 Skip-Gram模型

2.2.2 举例

以图3为例，图中总共包含10个不重复顶点，构成大小为10的字典。V1->V2->V3-V4->V5->V6->V7->V8->V9序列输入Skip-Gram模型，输入V5在字典中onehot表达向量x₅，预测V1,V2,V3,V4,V6,V7,V8,V9的表达向量x₁,x₂,x₃,x₄,x₆,x₇,x₈,x₉，如图5所示（图中D为需要映射的维度）

输入：V5在字典中onehot表达向量x₅=[0,0,0,0,1,0,0,0,0,0]，维度1x10
映射：x₅经过10xD的映射得到1xD的向量（V₅的Embedding表达），再经过8个Dx10的映射得到8个1x10维度的向量，8个维度1x10的向量是预测得到的上下文的表达向量
输出：8个1x10维度的向量分别经过softmax归一化得到1X10维度的概率值，如第一个向量对应着x₁，应该索引0的概率值最大；第二个向量对应着x₂，应该索引1的概率值最大，依次类推。如果该向量表示顶点不是我们需要预测的，则会反向传播更新映射矩阵，经过训练模型得到一个最优解，此时输入onehot向量经过10xD的映射得到1xD的向量即该输入顶点的Embedding表达。

图5 Skip-Gram演示

2.3 数学公式推导

2.3.1 优化目标

最大化优化目标：
$P(V_1,V_2,V_3,V_4,V_6,V_7,V_8,V_9|V_5)=P(V_1|V_5)·P(V_2|V_5)·P(V_3|V_5)·P(V_4|V_5)·P(V_6|V_5)·P(V_7|V_5)·P(V_8|V_5)·P(V_9|V_5)$

最低0.47元/天解锁文章

Deeachain

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Deepwalk笔记

Deepwalk整理主要思想 Deepwalk是一种将随机游走(Random walk)和Word2Vec两种算法相结合的图表示算法。网络的输入是一张图或者一个网络，输出为网络中顶点的向量表示。图 1 图表示示意图1. Random walk 图 2 包含个节点的图如上图所示，以V1顶点为
复制链接

扫一扫

专栏目录