基于图形互信息最大化的图表示学习
摘要
本文研究了如何在无监督的情况下,将图结构数据中丰富的信息保存和提取到嵌入空间中。
为此,我们提出了一个新的概念,图形互信息(GMI),来测量输入图和高级隐藏表示之间的相关性。
GMI将传统的互信息计算的思想从向量空间推广到图域,其中从节点特征和拓扑结构这两个方面测量互信息是必不可少的。
GMI展示了几个好处:
- 它对输入图的同构变换是不变的,这是许多现有的图表示学习算法中不可避免的约束。
- 它可以通过现有的互信息评价方法(如MINE)进行有效估计和最大化。
- 我们的理论分析证实了它的正确性和合理性。
在GMI的帮助下,我们开发了一个无监督的学习模型,通过最大化图神经编码器的输入和输出之间的GMI来进行训练。
在transductive和inductive节点分类和链路预测上的大量实验表明,我们的方法优于最先进的无监督方法,有时甚至超过了监督方法的性能。
1 引言
本文提出了一种直接的方法来考虑图结构方面的MI,而不使用任何读出函数和损坏函数。
我们通过比较编码器的输入(由输入邻域组成的子图)和输出(每个节点的隐藏表示),直接推导出MI。(节点级)
有趣的是,我们的理论推导表明,直接导出的MI可以分解为每个邻居特征和隐藏向量之间的局部MI的加权和。这样,我们对输入特征进行了分解,使MI计算易于处理。此外,如果我们调整权值,这种形式的MI可以很容易地满足对称性质(即对邻居的排列具有不变性)。由于上述MI主要是在节点特征级别上测量的,我们称之称为特征互信息(FMI)。
关于上述FMI,还存在两个问题:
- 组合的权重仍然未知
- 没有考虑到拓扑结构(即边缘特性)
为了解决这两个问题,我们定义了基于FMI的图形互信息(GMI)度量。
GMI将FMI中的权重设置为表示空间中每个邻居和目标节点之间的距离。
为了保留拓扑信息,GMI通过一个额外的互信息项进一步将这些权值与输入的边缘特征相关联。
2 GMI:定义和最大化
具有 N N N个节点的图: G = { V , E } \mathcal{G}=\{\mathcal{V},\mathcal{E}\} G={V,E}, v i ∈ V v_i∈\mathcal{V} vi∈V, e i j = ( v i , v j ) ∈ E e_{ij}=(v_i,v_j)∈\mathcal{E} eij=(vi,vj)∈E。
节点特征,假设服从经验概率分布 P \mathbb{P} P,由 X ∈ R N × D = { x 1 , . . . , x N } \pmb{X}∈\mathbb{R}^{N×D}=\{\pmb{x}_1,...,\pmb{x}_N\} XXX∈RN×D={xxx1,...,xxxN}给出,其中 x i ∈ R D \pmb{x}_i∈\mathbb{R}^D xxxi∈RD表示节点 v i v_i vi的特征。
邻接矩阵 A ∈ R N × N \pmb{A}∈\mathbb{R}^{N×N} AAA∈RN×N表示边缘连接,其中与边缘 e i j e_{ij} eij相关的 A i j A_{ij} Aij可以是实数,也可以是多维向量。
目标是学习一个编码器 f : R N × D × R N × N → R N × D ′ f:\mathbb{R}^{N×D}×\mathbb{R}^{N×N}→\mathbb{R}^{N×D'} f:RN×D×RN×N→RN×D′,这样隐藏向量 H = { h 1 , ⋅ ⋅ ⋅ , h N } = f ( X , A ) \pmb{H}=\{\pmb{h}_1,···,\pmb{h}_N\}=f(\pmb{X},\pmb{A}) HHH={hhh1,⋅⋅⋅,hhhN}=f(XXX,AAA)表示所有节点的高阶表示。
编码过程可以以节点级的形式重写。为了证明这一点,我们将节点 i i i的 X i \pmb{X}_i XXXi和 A i \pmb{A}_i AAAi分别定义为其邻居的特征和相应的取决于邻居的邻接矩阵。特别是,当编码器 f f f是 l l l层GNN时, X i \pmb{X}_i XXXi由 v i v_i vi的所有 k ≤ l k≤l k≤l hop邻居组成,如果我们进一步在邻接矩阵中添加自循环,那么它则会包含节点 i i i本身。
每个节点的编码: h i = f ( G i ) = f ( X i , A i ) \pmb{h}_i=f(\mathcal{G}_i)=f(\pmb{X}_i,\pmb{A}_i) hhhi=f(Gi)=f(XXXi,AAAi)。
我们应该最大化每个节点的表示 h i \pmb{h}_i hhhi和 G i \mathcal{G}_i Gi之间的MI。我们将这样图MI表示为 I ( h i ; G i ) I(\pmb{h}_i;\mathcal{G}_i) I(hhhi;Gi)。但是,定义 I ( h i ; G i ) I(\pmb{h}_i;\mathcal{G}_i) I(hhhi;Gi)并不简单。困难在于:
- 图MI应该与节点索引保持不变。换句话说,如果 G i \mathcal{G}_i Gi和 G i ′ \mathcal{G}'_i Gi′彼此同构,则 I ( h i ; G i ) = I ( h i ; G i ′ ) I(\pmb{h}_i;\mathcal{G}_i)=I(\pmb{h}_i;\mathcal{G}'_i) I(hhhi;Gi)=I(hhhi;Gi′)。
- 如果我们采用MINE方法进行MI计算,那么MINE中的鉴别器只接受固定大小的输入。但这对于 G i \mathcal{G}_i Gi是不可行的,因为不同的 G i \mathcal{G}_i Gi通常包含不同数量的节点,因此具有不同的大小。
为了解决定义图MI的问题,本节首先介绍仅依赖于节点特征的特征互信息(FMI)的概念。以FMI分解为灵感,我们定义了图形互信息(GMI),它同时考虑了节点特征和图拓扑。
2.1 FMI
我们将 X i \pmb{X}_i XXXi的经验概率分布表示为 p ( X i ) p(\pmb{X}_i) p(XXXi), h i \pmb{h}_i hhhi的概率表示为 p ( h i ) p(\pmb{h}_i) p(hhhi),联合分布用 p ( h i , X i ) p(\pmb{h}_i,\pmb{X}_i) p(hhhi,XXXi)表示。
根据信息论,
h
i
\pmb{h}_i
hhhi和
X
i
\pmb{X}_i
XXXi之间的MI定义为:
有趣的是,我们有以下互信息分解定理来计算
I
(
h
i
;
X
i
)
I(\pmb{h}_i;\pmb{X}_i)
I(hhhi;XXXi)。
定理1(互信息分解):如果条件概率
p
(
h
i
∣
X
i
)
p(\pmb{h}_i|\pmb{X}_i)
p(hhhi∣XXXi)是乘法的,则公式(1)中的
I
(
h
i
;
X
i
)
I(\pmb{h}_i;\pmb{X}_i)
I(hhhi;XXXi)可以分解为局部MI的加权和 ,即:
其中,
x
j
\pmb{x}_j
xxxj是节点
i
i
i的第
j
j
j个邻居,
i
n
i_n
in是
X
i
\pmb{X}_i
XXXi中所有元素的数量【即所包含的
i
i
i的邻居数】,每个
j
j
j的权重
w
i
j
w_{ij}
wij满足
1
i
n
≤
w
i
j
≤
1
\frac{1}{i_n}≤w_{ij}≤1
in1≤wij≤1。
为了证明定理1,我们首先引入了两个引理和一个定义。
引理1:对于任何随机变量
X
X
X,
Y
Y
Y,
Z
Z
Z,有
证明:
定义1:如果条件概率
p
(
h
∣
X
1
,
⋅
⋅
⋅
,
X
n
)
p(h|X_1,···,X_n)
p(h∣X1,⋅⋅⋅,Xn)是乘法的,则可以写成如下乘积形式(
r
1
,
.
.
.
,
r
n
r_1,...,r_n
r1,...,rn为适当的函数):
引理2:如果
p
(
h
∣
X
1
,
⋅
⋅
⋅
,
X
n
)
p(h|X_1,···,X_n)
p(h∣X1,⋅⋅⋅,Xn)是乘法的,则有:
现在,证明定理1的所有必要性都已经到位。
证明:
根据引理1,对于任意
j
j
j我们有:
这意味着:
另一方面,基于引理2,我们得到了:
然后,以上两个公式可以推导出如下结果:
因为所有
I
(
h
i
;
x
j
)
≥
0
I(\pmb{h}_i;\pmb{x}_j)≥0
I(hhhi;xxxj)≥0,必须存在权重
1
i
n
≤
w
i
j
≤
1
\frac{1}{i_n}≤w_{ij}≤1
in1≤wij≤1。当设置
w
i
j
=
I
(
h
i
;
X
i
)
/
∑
I
(
h
i
;
x
j
)
w_{ij}=I(\pmb{h}_i;\pmb{X}_i)/\sum I(\pmb{h}_i;\pmb{x}_j)
wij=I(hhhi;XXXi)/∑I(hhhi;xxxj) 时,我们将实现公式(2),同时确保
1
i
n
≤
w
i
j
≤
1
\frac{1}{i_n}≤w_{ij}≤1
in1≤wij≤1,进而证明了定理1。
利用定理1中的分解,我们可以通过MINE计算出公式(2)的右侧,因为鉴别器的输入现在成了 ( h i , x j ) (\pmb{h}_i,\pmb{x}_j) (hhhi,xxxj)对,它们的大小总是保持不变(即 D ′ − b y − D D'-by-D D′−by−D)。
此外,我们还可以调整权值,以反映输入图的同构变换【*】。例如,如果 X i \pmb{X}_i XXXi只包含节点 i i i的 1 − h o p 1-hop 1−hop邻居,则将所有权重设置为相同,将导致不同顺序的输入节点产生相同的MI。
尽管分解有一些好处,但很难表征权值的确切值,因为它们与 I ( h i ; x j ) I(\pmb{h}_i;\pmb{x}_j) I(hhhi;xxxj)的值及其潜在的概率分布有关。
一种简单的方法是将所有权值设置为 1 i n \frac{1}{i_n} in1,然后公式(2)右边的最大化等价于最大化 I ( h i ; X j ) I(\pmb{h}_i;\pmb{X}_j) I(hhhi;XXXj)的下界,通过它,真正的FMI也在一定程度上最大化。
除了这种方法之外,我们还提供了一个更强的解决方案,通过考虑权重作为可训练的注意力,这是下一小节的主题。
2.2 拓扑感知互信息
受定理1中分解的启发,我们试图从图的另一个方面(即拓扑视图)构造可训练的权值,这样 w i j w_{ij} wij的值就可以更灵活,并捕获图的内在属性。最终,我们推导出了图形互信息(GMI)的定义。
定义2(图形互信息):隐藏向量
h
i
\pmb{h}_i
hhhi与
G
i
=
(
X
i
,
A
i
)
\mathcal{G}_i=(\pmb{X}_i,\pmb{A}_i)
Gi=(XXXi,AAAi)之间的MI定义为:
其中,
x
j
\pmb{x}_j
xxxj是节点
i
i
i的第
j
j
j个邻居,
i
n
i_n
in是
X
i
\pmb{X}_i
XXXi中所有元素的数量,
α
i
j
\pmb{\alpha}_{ij}
αααij是邻接矩阵
A
\pmb{A}
AAA中的边的权值/特征,
σ
(
⋅
)
σ(·)
σ(⋅)是sigmoid函数。
公式(10)中第一项的 w i j w_{ij} wij衡量了一个局部MI对全局MI的贡献,我们通过 h i \pmb{h}_i hhhi和 h j \pmb{h}_j hhhj之间的相似性来实现 I ( h i ; x j ) I(\pmb{h}_i;\pmb{x}_j) I(hhhi;xxxj)的贡献(即 w i j = σ ( h i T h j ) w_{ij}=\sigma(\pmb{h}_i^T\pmb{h}_j) wij=σ(hhhiThhhj))。同时, I ( w i j ; α i j ) I(w_{ij};\pmb{\alpha}_{ij}) I(wij;αααij)最大化 w i j w_{ij} wij和输入图的边权重/特征(即 α i j \pmb{\alpha}_{ij} αααij)之间的MI,以强制 w i j w_{ij} wij符合拓扑关系。
从这个意义上讲,贡献的程度将与拓扑结构中的接近度一致,这通常被认为是,如果节点 j j j“更接近”节点 i i i, w i j w_{ij} wij可能更大,否则 w i j w_{ij} wij可能更小。该策略弥补了FMI只关注节点特征的缺陷,并使局部MI自适应地对全局MI有贡献。
请注意,公式(10)适用于一般情况。对于某些特定的情况下,我们可以稍微修改以提高效率。例如,当处理未加权图时,我们可以用负交叉熵损失替换第二个MI项 I ( w i j ; α i j ) I(w_{ij};\pmb{\alpha}_{ij}) I(wij;αααij)。最小化交叉熵也有助于MI最大化,并提供了一个更有效的计算。
公式(10)有几点好处。首先,这种MI对输入图的同构变换是不变的。其次,它在计算上是可行的,因为右边的每个分量都可以用MINE来估计。更重要的是,GMI在捕获原始输入信息方面比DGI更强大,因为它在细粒度节点级别的隐藏向量和节点和边缘的输入特征方面具有显式的相关性。
2.3 GMI最大化
现在我们直接在MINE的帮助下最大化公式(10)的右边。
请注意,MINE使用联合分布和边缘乘积之间的KL散度的Donsker Varadhan(DV)表示来估计MI的下界。
因为我们更关注的是最大化MI,而不是获得其特定值,所以可以使用其他非KL替代方案,如Jensen-Shannon MI estimator (JSD) 和 Noise-Contrastive estimator (infoNCE)来代替它。
本文为了有效性和效率,选用JSD估计器,因为infoNCE估计器对负面采样策略(负面样本的数量)敏感,因此可能成为固定可用内存的大规模数据集的瓶颈。相反,JSD估计器对负抽样策略的不敏感性及其在许多任务上的良好性能使其更适合我们的任务。
我们通过下式计算公式(10)中的第一项:
其中,
D
w
:
D
×
D
′
→
R
\mathcal{D}_w:D×D'→\mathbb{R}
Dw:D×D′→R是由参数为
w
w
w的神经网络构建的鉴别器。
x
′
j
\pmb{x'}_j
x′x′x′j是来自
P
~
=
P
\widetilde{\mathbb{P}}=\mathbb{P}
P
=P的负样本,
s
p
(
x
)
=
l
o
g
(
1
+
e
x
)
sp(x)=log(1+e^x)
sp(x)=log(1+ex)。
正如2.2节中提到的,我们通过计算交叉熵而不是使用JSD估计器使
I
(
w
i
j
;
α
i
j
)
I(w_{ij};\pmb{\alpha}_{ij})
I(wij;αααij)最大化,因为我们在实验中处理的图是未加权的。
3 实验