【推荐算法】Graph Embedding系列之LINE: Large-scale Information Network Embedding

LINE是一种网络嵌入算法,旨在保留一阶和二阶相似度,适用于带权或不带权的有向图和无向图。与DeepWalk不同,LINE采用广度优先搜索,同时处理一阶和二阶相似度,通过边抽样优化训练过程,适用于大规模网络。
摘要由CSDN通过智能技术生成

LINE: Large-scale Information Network Embedding

  1. 论文地址:https://arxiv.org/pdf/1503.03578.pdf 【WWW 2015】
  2. Github地址:https://github.com/tangjianpku/LINE

算法讲解:

1、LINE与DeepWalk对比

与DeepWalk一样,LINE也是将每个节点用低维向量表示的一种算法。与DeepWalk不同的是,LINE适用于带权或者不带权的有向图和无向图

LINE采用了“一阶相似度(first-order proximity)和二阶相似度(second-order proximity)”的概念,一阶相似度用于表示局部网络结构,但一阶相似度不能够完全表达全局网络结构。因此,LINE使用了二阶相似度作为一阶相似度的补充,希望二阶相似度能够补充一阶相似度带来的稀疏性问题并且更好的表示全局网络结构

论文的主要贡献在于:

  • 提出了一个新的网络embeeding模型LINE,LINE的目标函数保留了一阶相似度和二阶相似度。
  • 提出了一个解决了传统随机梯度下降算法的限制的边抽样算法来优化目标函数。
  • LINE模型在真实的信息网络实验上表现出不错的有效性和效率。

LINE与DeepWalk的对比:

  • DeepWalk使用随机游走来扩张顶点的邻居节点,近似于深度优先搜索DFS(depth-first search),LINE采用了与“二阶相似度”更贴切的广度优先搜索BFS(breadth-first search)。
  • DeepWalk仅适用于不带权的网络,而LINE适用于边带权或者不带权的网络。

2、相关概念

假设G=(V,E)表示一个信息网络,V是顶点集,每个顶点表示一个数据实体;E是顶点间的边集,每条边表示的是两个数据实体间的关系。每条边e\epsilon E是一个有序对e=(u,v),e被分配的权重为\omega _{\mu \upsilon }>0,权重表示的是顶点间关系的强度。LINE只考虑非负的边权重。

网络中的一阶相似度(First-order Proximity)定义为两个节点间的局部成对相似性对于每一对由边(u,v)链接的节点,边(u,v)上的权重\omega _{\mu \upsilon }表示的就是节点u和节点v之间的一阶相似性如果节点u和节点v之间不存在边,那么它们的一阶相似度为0。

然而在真实的信息网络中,两个节点间存在一条边相连通常只占一小部分。即使两个节点在本质上是相似的,由于它们之间不存在边链接,它们的一阶相似性仍然为0。因此,一阶相似性不足以保留整个网络结构。那么,我们就需要一个候选概念来解决这个稀疏性问题。直觉上,共享相同节点作为邻居的节点可能是相似的,这样LINE定义了二阶相似度

网络中节点对的二阶相似性(Second-order Proximity)定义为两个节点的邻居网络结构的相似性。(二阶相似度衡量的是两个节点的邻居节点的相似情况)

假设p_{u}=(\omega _{u,1},...,\omega _{u,\left | V \right |}) 表示节点u和其他所有节点间的一阶相似度,那么p_{u}

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值