LINE: LARGE-SCALE INFORMATION NETWORK EMBEDDING
现在对于信息网络的研究我们是十分重视的,但是现有的大多数图嵌入方法都不适用于通常包含数百万个节点的真实信息网络。所以LINE的作者提出了这样一种新的网络嵌入方法,它适用于任意类型的信息网络:无向、有向或者加权。
一阶近似以及二阶近似
一阶近似局部结构由网络中观察到的链路来表示,这些链路捕捉顶点之间的一阶近似。网络中的一阶近似是两个顶点之间的局部成对接近。对于由一条边(u,v)链接的每对顶点,该边上的权重wuv表示u和v之间的一阶近似值。如果u和v之间没有观察到边,则它们的一阶近似值为0
二阶邻近性的一般概念可以解释为共享邻居可能相似的节点。这种直觉可以在社会学和语言学理论中找到。例如,社交网络中的“两个人的友谊网络的重叠程度与他们之间的联系强度相关”;事实上,拥有许多共同朋友的人很可能会有相同的兴趣并成为朋友,而与许多相似的单词一起使用的单词也可能具有相似的含义
图1示出了说明性示例。由于顶点6和顶点7之间的边的权重较大,即6和7具有很高的一阶近似性,因此它们应该在嵌入空间中彼此紧密地表示。另一方面,虽然顶点5和顶点6之间没有联系,但它们有许多共同的邻居,即它们具有很高的二阶近似性,因此也应该彼此紧密地表示。我们期望二阶近似的考虑有效地补充了一阶近似的稀疏性,更好地保持了网络的全局结构。在这篇论文中,我们将呈现一阶和二阶近似的精心设计的目标。
Model
一阶近似
定义顶点
v
i
v_i
vi和
v
j
v_j
vj之间的联合概率如下
其中
u
i
⃗
u
j
⃗
\vec{u_i} \vec{u_j}
uiuj是低维的嵌入向量表示
为了保持一阶近似,一种简单的方法是最小化以下目标函数:
其中d(·,·)是两个分布之间的距离。我们选择最小化两个概率分布的KL散度,用KL散度代替d(·,·),并省略一些常数,我们得到:
注意,一阶近似仅适用于无向图,不适用于有向图。
LINE with Second-order Proximity
二阶近似度适用于有向图和无向图。给定一个网络,在不损失一般性的前提下,我们假设它是有向的(一条无向边可以被认为是两条方向相反且权重相等的有向边)。二阶近似假设共享多个连接到其他顶点的顶点彼此相似。在这种情况下,每个顶点也被视为一个特定的“上下文”,并且假设在“上下文”上具有相似分布的顶点是相似的。因此,每个顶点都扮演两个角色:顶点本身和其他顶点的特定“上下文”。我们引入两个向量
u
i
⃗
\vec{u_i}
ui和
u
i
⃗
′
\vec{u_i}'
ui′,其中
u
i
⃗
\vec{u_i}
ui是将其视为顶点时的表示,而
u
i
⃗
′
\vec{u_i}'
ui′是将其视为特定“上下文”时的表示。对于每个有向边(i,j),我们首先定义“上下文”
v
j
v_j
vj的概率由顶点
v
i
v_i
vi生成:
其中
∣
v
∣
\mid v \mid
∣v∣是顶点或“上下文”的数量
为了保持二阶近似性,我们应该使由低维表示的上下文
p
2
(
⋅
∣
v
i
)
p2(·| vi)
p2(⋅∣vi)的条件分布接近经验分布
p
2
^
(
⋅
∣
v
i
)
\hat{p2}(·| vi)
p2^(⋅∣vi)。因此,我们最小化以下目标函数:
其中
d
(
⋅
,
⋅
)
d(·,·)
d(⋅,⋅)是两个分布之间的距离。由于网络中顶点的重要性可能不同,我们在目标函数中引入
λ
i
\lambda_i
λi来表示,顶点
i
i
i在网络中的权重,可以用度来衡量,也可以通过PageRank等算法来估计。其中经验分布
p
2
^
(
⋅
∣
v
i
)
\hat{p2}(·| vi)
p2^(⋅∣vi)被定义为
p
2
^
(
v
j
∣
v
i
)
=
w
i
j
d
i
\hat{p2}(v_j| vi)=\frac{ w_{ij}}{d_i}
p2^(vj∣vi)=diwij其中
w
i
j
w_{ij}
wij是边(i,j)的权重而
d
i
{d_i}
di是边的出度。
d
i
=
∑
k
∈
N
(
i
)
w
i
k
d_i=\sum_{k \in N(i)}w_{ik}
di=∑k∈N(i)wik,其中
N
(
i
)
N(i)
N(i)是
v
i
v_i
vi的出度邻居.
最后,我们用KL散度代替d(·,·),设置
λ
i
\lambda_i
λi=
d
i
d_i
di并省略一些常数,我们得到:
到这里模型已经讲解完了,如何使得网络保存整个一阶以及二阶邻居的信息,一种最简单的方式就是把model1和model2生成的向量进行拼接。还有一种方法是把两个嵌入向量进行联合训练得到一个新的embedding,这也是作者的未来展望。