LINE: Large-scale Information Network Embedding
- 论文地址:https://arxiv.org/pdf/1503.03578.pdf 【WWW 2015】
- Github地址:https://github.com/tangjianpku/LINE
算法讲解:
1、LINE与DeepWalk对比
与DeepWalk一样,LINE也是将每个节点用低维向量表示的一种算法。与DeepWalk不同的是,LINE适用于带权或者不带权的有向图和无向图。
LINE采用了“一阶相似度(first-order proximity)和二阶相似度(second-order proximity)”的概念,一阶相似度用于表示局部网络结构,但一阶相似度不能够完全表达全局网络结构。因此,LINE使用了二阶相似度作为一阶相似度的补充,希望二阶相似度能够补充一阶相似度带来的稀疏性问题并且更好的表示全局网络结构。
论文的主要贡献在于:
- 提出了一个新的网络embeeding模型LINE,LINE的目标函数保留了一阶相似度和二阶相似度。
- 提出了一个解决了传统随机梯度下降算法的限制的边抽样算法来优化目标函数。
- LINE模型在真实的信息网络实验上表现出不错的有效性和效率。
LINE与DeepWalk的对比:
- DeepWalk使用随机游走来扩张顶点的邻居节点,近似于深度优先搜索DFS(depth-first search),LINE采用了与“二阶相似度”更贴切的广度优先搜索BFS(breadth-first search)。
- DeepWalk仅适用于不带权的网络,而LINE适用于边带权或者不带权的网络。
2、相关概念
假设G=(V,E)表示一个信息网络,V是顶点集,每个顶点表示一个数据实体;E是顶点间的边集,每条边表示的是两个数据实体间的关系。每条边是一个有序对e=(u,v),e被分配的权重为,权重表示的是顶点间关系的强度。LINE只考虑非负的边权重。
网络中的一阶相似度(First-order Proximity)定义为两个节点间的局部成对相似性。对于每一对由边(u,v)链接的节点,边(u,v)上的权重表示的就是节点u和节点v之间的一阶相似性。如果节点u和节点v之间不存在边,那么它们的一阶相似度为0。
然而在真实的信息网络中,两个节点间存在一条边相连通常只占一小部分。即使两个节点在本质上是相似的,由于它们之间不存在边链接,它们的一阶相似性仍然为0。因此,一阶相似性不足以保留整个网络结构。那么,我们就需要一个候选概念来解决这个稀疏性问题。直觉上,共享相同节点作为邻居的节点可能是相似的,这样LINE定义了二阶相似度。
网络中节点对的二阶相似性(Second-order Proximity)定义为两个节点的邻居网络结构的相似性。(二阶相似度衡量的是两个节点的邻居节点的相似情况)
假设 表示节点u和其他所有节点间的一阶相似度,那么和