【Graph Embedding】LINE：算法学习笔记

最新推荐文章于 2022-03-07 22:28:27 发布

萧然凌宇

最新推荐文章于 2022-03-07 22:28:27 发布

阅读量1.1k

点赞数 5

分类专栏：图嵌入算法文章标签：机器学习图嵌入

本文链接：https://blog.csdn.net/bojubang1268/article/details/102590671

版权

图嵌入算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Large-scale Information Network Embedding（LINE）算法

本文是本人在学习LINE算法中参考各路大神博客所做的一个学习笔记
文中夹杂了一些个人理解，如有不到位之处欢迎指正讨论。
文章欢迎转载，请标明出处，谢谢。

1.网络结构

在现实网络结构当中，如果节点之间有相连接的边，则认为两个节点具有一定的相似性，如果这又是个带权的网络结构，则可以用节点与节点之间相连接的边的权重来度量两个节点之间的相似性。这种节点与节点之间的相似性度量方式在LINE算法中定义为一阶近邻。如下图所示的（1,5）,（2,6）
LINE算法示例图
但在现实网络结构当中，仅仅用一阶近邻来度量两个节点似乎并不准确，比如上图所示节点(5,6),虽然节点5与节点6之间不存在直接相连的边，但他们之间有共有的邻居,节点(1,2,3,4)。原文作者对于这种情况的出现，定义了一种二阶近邻，即通过判断两个节点之间的共有邻居来度量两个节点之间的相似度。

2.表达公式

2.1.一阶近邻

一阶近邻用到的公式如下所示：
在这里插入图片描述
我们假设 V 为图中的所有节点集合， $V_{i}$ , $V_{j}$ 为我们想要求相似度的两个顶点， $w_{ij}$ 为顶点 $V_{i}$ 与 $V_{j}$ 之间的连接边权重， $u_{i}$ , $u_{j}$ 为节点 $V_{i}$ , $V_{j}$ 的embedding向量。

由我们上述一阶相似度的定义可知，节点 $V_{i}$ 与 $V_{j}$ 之间的相似度可以由 $w_{ij}$ 来进行表示，所以我们可以用经验概率分布公式(2)，得到 $w_{ij}$ 在整个w(边权之和)当中的占比，进而衡量 $w_{ij}$ 的重要程度(也就是概率)

$u_{i}$ , $u_{j}$ 为节点 $V_{i}$ , $V_{j}$ 的embedding向量，两个向量之间的相似度可以用( $u_{i}$ . $u_{j}$ )的点乘进行表示，在此基础上套上一个sigmoid函数，将其映射到0~1之间，也就变成了一个概率分布，由公式(1)所示

由此问题就转换成了度量公式(1),(2)两个分布之间的距离问题，只要我们能够使得
它们之间距离越来越近，就能得到我们想要的embedding向量

度量两个分布之间的距离最常用的方式就是KL散度，最终的优化目标函数如公式(3)所示，这里是作者省去了常数项之后的最终结果，有关KL散度怎么省去常数项的问题可以参考下面这个博客。
https://www.cnblogs.com/ymjyqsx/p/7085931.html

不过，公式(3)中缺乏负样本的存在，仅仅优化正样本会导致部分向量非常大，这种情况可以通过引入负样本来进行解决，引入的方式借鉴了word2vec中的Negative sampling方法，最终目标函数如公式(4)所示。

Negative sampling 负采样方法可以参考博客https://www.cnblogs.com/pinard/p/7249903.html

从公式中可以看出，一阶近邻没有考虑方向的问题，因此只能用于无向图当中。

2.2.二阶近邻

二阶近邻公式如下所示
在这里插入图片描述
和一阶近邻一样，我们首先定义一个经验概率分布，如公式(6)所示，其中 $w_{ij}$ 为两个节点之间边的权重，k为节点的出度数量， $d_{i}$ 为节点出度节点边的权重之和。也就是说公式(6)度量了两个节点之间的边权占目标节点出度节点
(也就是邻居) 的边权之和的占比。

二阶近邻描述的是节点与邻域的关系，每个节点有两个角色，一个表示节点本身，另一个表示其他节点的邻居，因此文中对每个节点定义了两个大小相等但意义不一样的embedding向量。 $u_{i}$ 表示节点 $v_{i}$ 作为节点本身的embedding向量，（此处的含义与一阶近邻中的 $u_{i}$ 一致）。 $u^{'}_{i}$ 则是节点 $v_{i}$ 作为邻居时所表达出的一个"上下文"向量。

( $u_{i}$ . $u^{'}_{j}$ )的点乘就表达了节点 $V_{i}$ 本身与节点 $V_{j}$ 的邻居之间的关系，也就是公式(5)当中的分子部分。公式(5)中|v|表示网络结构中所有的点，其实算是一个softmax函数，它代表了节点 $V_{i}$ 本身与节点 $V_{j}$ 的邻居之间的关系在节点 $V_{i}$ 与网络结构中所有的其它节点的邻居之间关系的占比。

这样，原问题就又转换成了度量公式(5)与公式(6)之间距离的问题。目标函数定义如公式(7)所示，其中 $λ_{i}$ 表示节点 $V_{i}$ 的重要程度，文中假设度比较高的节点权重较高，令 $λ_{i}=d_{i}$ ，还是采用KL散度度量公式(5)与公式(6)分布之间的距离，省去常数项后得到如公式(8)所示的优化目标函数。但，直接去迭代公式（8）的计算代价很大。因此，还是采用Negative sampling的方式进行负采样，得到二阶近邻的优化目标，如公式(9)所示。