本文介绍来自电子科技大学康昭老师团队发表在 NeurIPS 2024(机器学习三大顶会之一,CCF-A 类)上的一篇文章“Beyond Redundancy: Information-aware Unsupervised Multiplex Graph Structure Learning”。论文共同第一作者为电子科技大学的沈智翔和王硕,通讯作者为电子科技大学计算机学院的康昭副教授。
多重图(多关系图)是由多个跨越同类型节点的图层组成的特殊异构图,具有强大的数据建模能力。为了实现更好的信息提取和信息融合,该项研究从以数据为中心的角度审视了多重图领域的关键问题:如何以无监督的方式从原始多重图数据中学习融合图,从而减轻与任务无关的噪声,同时保留充分的任务相关信息? 为了解决这一挑战,作者首先从理论层面严格定义了多重图非冗余,并提出了一种信息感知的无监督多重图融合框架(InfoMGF)。该方法利用图结构学习来消除原始多图数据中的任务无关噪声,同时最大化视图共享和特有的任务相关信息,从而解决了非冗余多重图的前沿问题。理论分析保证了任务相关信息的有效学习和图融合的必要性。在多种下游任务中,InfoMGF 超过了此前所有的无监督乃至有监督方法,具有优越的性能和鲁棒性。
相关资料可以于如下地址访问:
论文题目:Beyond Redundancy: Information-aware Unsupervised Multiplex Graph Structure Learning
论文链接:https://openreview.net/pdf?id=xaqPAkJnAS
代码链接:https://github.com/zxlearningdeep/InfoMGF
项目链接:https://neurips.cc/virtual/2024/poster/93075
01. 引言
无监督多重图学习(Unsupervised Multiplex Graph Learning, UMGL)的目标是在不需要人工标记的情况下学习多关系图中的节点表征。此前的UMGL方法在理解如何利用多关系图的丰富性知识仍然存在很大的缺陷,他们主要忽视了以下两个关键因素:
挑战1:图结构的可靠性。图神经网络(GNN)中的消息传递机制通常依赖于固定的图结构。不幸的是,现实图数据中的结构并不总是可靠的,多关系图通常包含大量任务无关噪声,即不相关的、异配性的或缺失的连接。
挑战2:多重图非冗余。鉴于无监督的任务特性,先前的方法主要采用对比学习机制来进行有效的训练。然而,标准的对比学习仅仅最大化不同视图之间共享的任务相关信息,忽略了每个视图的独立任务信息。现实的多重图更可能是非冗余的,与任务相关的信息不仅存在于多视图的共享区域中,还可能存在于某些视图的特有区域中。例如,在真实引文网络 ACM 中,不同的研究人员撰写的属于同一主题的论文可能具有类别相关性。与 co-author 视图相比,co-subject 视图所具有的特有的同配连接可以体现为视图独立的任务相关信息。这暴露了现有UMGL方法中的一个关键局限性,即可能无法捕获充分的任务相关信息。研究团队首先从条件互信息的角度定义了多重图非冗余:
基于以上挑战,研究目标可以概括如下:如何以无监督的方式从原始多重图中学习融合图,从而减轻与任务无关的噪声,同时保留充分的任务相关信息?为了处理这项新任务,作者提出了一种新颖的信息感知的无监督多重图融合框架(InfoMGF)。本项研究的主要贡献有以下三方面:
- 研究方向:该团队开创性地提出并探索了多重图的结构可靠性问题,这是一项更加实用和具有挑战性的任务。据悉,本项研究是首次尝试在多重图中进行无监督图结构学习。
- 算法设计:作者提出了InfoMGF。基于多重图非冗余准则下,InfoMGF同时最大化视图共享和特有的任务相关信息来引导融合图学习。此外还开发了随机增强和生成图增强两种策略来捕获视图特有的任务信息。相应的理论分析保证了InfoMGF的有效性。
- 实验评估:在多样的下游任务上与各种最先进的方法进行了广泛的实验比较,以全面评估 InfoMGF 的有效性和鲁棒性。大量可视化工作也帮助展示了图结构学习的效果。
02. 研究方法
2.1 图结构优化
多重图数据可以表示为
G
=
{
G
1
,
.
.
.
,
G
V
}
G = \{G_1, ..., G_V\}
G={G1,...,GV} ,其中
G
v
=
{
A
v
,
X
}
G_{v} = \{A_v , X\}
Gv={Av,X} 是第
v
v
v 个图。首先使用图学习器生成每个视图的精炼图
G
v
s
=
{
A
v
s
,
X
}
G_{v}^s=\{A_v^s, X\}
Gvs={Avs,X}。为了同时保留节点特征和结构信息,采用 Simple Graph Convolution(SGC)在每个原始图中进行聚合。通过应用视图特定的两层注意力网络来建模不同特征对结构学习的不同贡献:
X
v
=
(
D
~
v
−
1
2
A
~
v
D
~
v
−
1
2
)
r
X
,
H
v
=
σ
(
X
v
⊙
W
1
v
)
⊙
W
2
v
X^{v}=(\tilde{D}_{v}^{-\frac{1}{2}}\tilde{A}_{v}\tilde{D}_{v}^{-\frac{1}{2}} )^{r} X, \quad H^{v}=\sigma(X^{v}\odot W^{v}_{1})\odot W^{v}_{2}
Xv=(D~v−21A~vD~v−21)rX,Hv=σ(Xv⊙W1v)⊙W2v
这一策略能够在训练前获取特定视图的特征,从而避免了基于GNN的图学习器在训练过程中耗时的图卷积操作,这提高了方法的可扩展性。随后,作者采用了一系列 post-processing techniques 以确保邻接矩阵
A
v
s
A_v^s
Avs满足诸如稀疏性、非负性、对称性和归一化等特性。最后,通过一个视图共享的 GCN 作为图编码器,以获得每个视图的节点表征
Z
v
Z^{v}
Zv。
2.2 最大化共享和独立的任务相关信息
对于每对不同的视图,作者首先最大化互信息
0.5
I
(
G
i
s
;
G
j
)
+
0.5
I
(
G
j
s
;
G
i
)
0.5I(G^s_{i}; G_{j})+0.5I(G^s_{j}; G_{i})
0.5I(Gis;Gj)+0.5I(Gjs;Gi),以捕获视图之间共享的任务相关信息。最大化目标可以转化为易于处理的优化下界为
I
(
G
i
s
;
G
j
s
)
I(G^s_{i}; G^s_{j})
I(Gis;Gjs)。最小化损失项可以表示为:
L
s
=
−
2
V
(
V
−
1
)
∑
i
=
1
V
∑
j
=
i
+
1
V
I
(
G
i
s
;
G
j
s
)
\mathcal{L}_s=-\frac{2}{V(V-1)}\sum_{i=1}^V\sum_{j=i+1}^VI(G^s_{i};G^s_{j})
Ls=−V(V−1)2i=1∑Vj=i+1∑VI(Gis;Gjs)
正如前文所说,为了适应普遍的非冗余场景,
G
v
s
G_v^s
Gvs 不仅应该包含视图共享信息,还应该捕捉视图独立的任务相关信息,即
I
(
G
i
s
;
Y
∣
∪
j
≠
i
G
j
)
I(G^{s}_{i}; Y|\cup_{j\neq i}G_{j})
I(Gis;Y∣∪j=iGj)。为鼓励模型在早期训练阶段更多地关注共享的任务相关信息,作者将优化目标放宽为视图中任务相关的总信息
I
(
G
i
s
;
Y
)
I(G^{s}_{i}; Y)
I(Gis;Y)。
由于缺乏标签信息,作者采用最优增强图
G
i
′
G_{i}^{\prime}
Gi′(满足
I
(
G
i
′
;
G
i
)
=
I
(
Y
;
G
i
)
I (G_{i}^{\prime};G_{i})= I (Y;G_{i})
I(Gi′;Gi)=I(Y;Gi))来提供指导。后文通过理论证明了最优增强图在最大化任务相关信息
I
(
G
i
s
;
Y
)
I(G^{s}_{i}; Y)
I(Gis;Y) 的有效性,为无监督学习奠定了理论基础。在实验中,
G
i
′
G_{i}^{\prime}
Gi′ 是借助启发式方法来得到的。特征增强采用了简单有效的随机掩码。对于结构增强,作者除了尝试随机删边(InfoMGF-RA),还提出了一种可学习的生成式图增强(InfoMGF-LA)。得到增强图后,捕捉视图独立的任务相关信息的损失项被定义如下:
L
u
=
−
1
V
∑
i
=
1
V
I
(
G
i
s
;
G
i
′
)
\mathcal{L}_u=-\frac{1}{V}\sum_{i=1}^VI(G_{i}^{s}; G_{i}^{\prime})
Lu=−V1i=1∑VI(Gis;Gi′)
2.3 可学习生成式图增强(InfoMGF-LA)
随机删边可能缺乏可靠性和可解释性。较低的丢弃概率不足以消除任务无关的噪声,而过多的删除则会损害任务相关的信息。因此,作者提出了可学习的图增强生成器。为了避免误导性结构信息所造成的干扰,作者基于节点特征的深层映射来对原始边进行个性化的概率建模。为了确保端到端训练中采样操作的可微性,引入了 Gumbel-Max 重参数化技巧,将边权重的离散二元 (0-1) 分布转换为连续分布。具体来说,对于视图
v
v
v 中的每条边
e
i
,
j
e_{i,j}
ei,j,其在相应增强图中的边权重
ω
i
,
j
v
ω^v_{i,j}
ωi,jv 计算如下:
δ ∼ U n i f o r m ( 0 , 1 ) \delta \sim \mathrm{Uniform(0, 1)} δ∼Uniform(0,1) 是采样的 Gumbel 随机变量。对于良好的增强图,它一方面要与原始数据保持差异,另一方面也应保留任务相关的信息。因此,作者设计了一个合适的损失函数用于增强图训练:
其中
λ
\lambda
λ 是正超参数。第一项使用余弦误差重建视图特征,确保增强图保留关键的任务相关信息。第二项最小化
I
(
G
i
s
;
G
i
′
)
I(G^s_i ; G^′_i)
I(Gis;Gi′) 以约束增强图。这一正则项确保在保留任务相关信息的同时最大程度地引入差异性,以实现数据增强。InfoMGF-LA 采用了一种迭代交替优化策略,交替更新精炼图
G
i
s
G^s_i
Gis 和增强图
G
i
′
G^\prime_i
Gi′,算法流程细节详见Algorithm 2。
2.4 多关系图融合
有效的精炼图保留了每个视图中任务相关信息,同时消除了任务无关噪声。最后,InfoMGF学习一个融合图,以封装来自所有视图的充分的任务相关信息。同样利用可扩展的注意力机制作为融合图学习器:
H
=
σ
(
[
X
;
X
1
;
X
2
;
⋯
;
X
V
]
⊙
W
1
)
⊙
W
2
,
L
f
=
−
1
V
∑
i
=
1
V
I
(
G
s
;
G
i
s
)
H=\sigma([X;X^1;X^2;\cdots;X^V]\odot W^1)\odot W^2, \quad \mathcal{L}_f=-\frac{1}{V}\sum_{i=1}^V I(G^{s};G_{i}^{s})
H=σ([X;X1;X2;⋯;XV]⊙W1)⊙W2,Lf=−V1i=1∑VI(Gs;Gis)
模型的整体损失由以上三项组成
L
=
L
s
+
L
u
+
L
f
\mathcal{L}=\mathcal{L}_s+\mathcal{L}_u+\mathcal{L}_f
L=Ls+Lu+Lf。注意到,所有损失项都需要计算互信息。然而,由于图结构数据的复杂性,直接计算两个图之间的互信息是不切实际的。由于该项研究专注于节点级任务,结构优化应保证每个节点的邻域子结构包含充分的任务相关信息。因此,优化目标可以转化为节点表征之间的互信息,这可以通过基于样本的可微下界/上界实现有效估计。对于任意视图
i
i
i 和
j
j
j,互信息
I
(
Z
i
;
Z
j
)
I(Z^i; Z^j )
I(Zi;Zj) 的下界
I
l
b
I_{lb}
Ilb 和上界
I
u
b
I_{ub}
Iub 为:
其中 f ( ⋅ , ⋅ ) f (·,·) f(⋅,⋅) 是由神经网络近似的评价器, f ∗ ( ⋅ , ⋅ ) f ^*(·,·) f∗(⋅,⋅) 是从 I l b I_{lb} Ilb 插入到 I u b I_{ub} Iub 目标中的最佳评价器。 p ( z i , z j ) p(z^i, z^j ) p(zi,zj) 表示视图 i i i 和 j j j 节点表征的联合分布,而 p ( z i ) p(z^i) p(zi) 表示边缘分布。总损失 L \mathcal{L} L 中的每一项要最大化互信息,作者采用互信息下界 I l b I_{lb} Ilb 进行优化;而增强图生成器损失 L g e n \mathcal{L}_{gen} Lgen 则需要最小化互信息,作者采用互信息上界 I u b I_{ub} Iub 进行优化。
2.5 模型架构
03. 理论贡献
3.1 最优图增强
定理 1 理论上确保最大化 I ( G i s ; G i ′ ) I(G^s_i ; G^\prime_i) I(Gis;Gi′) 将为学习 G i s G^s_i Gis 提供清晰且充分的任务相关指导。定理 2 证明了InfoMGF的优化目标在去除与任务无关的噪声方面优于传统的图结构重构方法。
3.2 图融合
定理 3 从理论上证明,学习到的融合图 G s G^s Gs 比单独考虑任何单一视图下的精炼图 G i s G^s_i Gis 包含更多的任务相关信息,这体现了多重图融合的必要性。证明过程详见原文。
04. 实验结果
作者在节点聚类和节点分类任务上对融合图进行评估。对于节点聚类,作者对融合图
G
s
G^s
Gs的节点表征
Z
Z
Z应用K-means算法,并使用以下四个指标:准确性(ACC)、规范化互信息(NMI)、F1得分(F1)和调整后的ARI指数。对于节点分类,作者在
G
s
G^s
Gs上训练一个新的GCN进行评估,并使用以下两个指标:Macro-F1和Micro-F1。从实验结果中可以看出,无论是何种下游任务,与其他多重图方法相比,InfoMGF的两个版本都超越了现有的最优方法。此外,由于可学习的生成图增强在捕获每个图特有的任务相关信息方面的卓越能力,InfoMGF-LA取得了显著的优异效果。
为了验证 InfoMGF 每个部分的有效性,作者设计了四种变体,并将分类性能与 InfoMGF 进行比较。可以观察到,与视图共享的任务相关信息损失 ( L s \mathcal{L}_s Ls) 相比,视图独立的任务相关信息损失 ( L u \mathcal{L}_u Lu) 的删除具有更大的影响。这主要是由于 L u \mathcal{L}_u Lu的优化实际上最大化了每个视图的整体任务相关信息,而不仅包含特有信息。InfoMGF-LA 框架结合了可学习的生成增强,并最大化互信息 I ( G i s ; G i ′ ) I(G_{i}^{s}; G_{i}^{\prime}) I(Gis;Gi′) 来挖掘任务相关信息。因此,作者将 InfoMGF 与未进行图增强的版本(w/o Aug.)进行比较,即直接最大化与原始图结构的互信息 I ( G i s ; G i ) I(G_{i}^{s}; G_{i}) I(Gis;Gi)。此外,作者删除了 L g e n \mathcal{L}_{gen} Lgen 的重建损失项(w/o Rec.)来分析保留关键信息的必要性。结果表明,与InfoMGF相比,最大化与原始图结构的互信息会导致较差的表现,这与 Theorem 2 的分析一致。同时,从 L g e n \mathcal{L}_{gen} Lgen 中删除特征重建项也会导致增强图丢失任务相关信息,从而影响方法的性能。
为了评估InfoMGF对噪声的鲁棒性,作者通过随机加边,随机删边,和随机特征掩码来干扰ACM数据集上的每个图。作者将InfoMGF与各种基线进行比较:结构固定方法(GCN), GSL方法(SUBLIME)和UMGL方法(HDMI)。可以明显看出,随着边缘扰动率的增加,各方法的性能下降,而GSL方法(即InfoMGF和SUBLIME)表现出更好的鲁棒性。 而在特征掩码率增高的过程中,SUBLIME无法获取高质量的节点特征,从而性能迅速下降。相比之下,InfoMGF可以利用丰富的多重图信息,从而减少对节点特征的依赖。值得注意的是, InfoMGF在多种实验设置中始终优于所有对比方法,展现了优越的鲁棒性。
作者进一步从 ACM 数据集中选择一个子图,其节点包含两类(数据库(C1)和数据挖掘(C2)),并可视化原始多重图和 InfoMGF-LA 学习的融合图 G s G^s Gs 中的边权重。从图 6 可以看出,融合图主要由类内边组成。与几乎完全连接的 PSP 视图相反,InfoMGF 显着减少了类间边缘,反映出本方法有效去除了与任务无关的噪声。与 PAP 视图相比,InfoMGF 引入了更多类内边缘,受益于从所有图中捕获共享和独特的任务相关信息。此外,融合图中不同的边权重代表不同的重要性级别,能够更好地服务于下游任务。作者进一步可视化了融合图节点表征。图 7 显示了表征的节点相关性热图,其中行和列均按节点标签重新排序。在热图中,较暖的颜色表示节点之间的相关性较高。很明显,同一类别节点之间的相关性明显高于不同类节点之间的相关性,这主要是由于 G s G^s Gs 更多包含类内边缘。图结构和节点可视化进一步验证了InfoMGF在无监督图结构学习中的有效性。
05. 总结与局限性
本项研究首次对现实多关系图中的结构可靠性和非冗余问题进行了深入探索。所提出的无监督图结构学习框架InfoMGF对多重图结构进行了精炼与融合,以消除与任务无关的噪声,同时最大化不同图之间共享的和特定的任务相关信息。理论和实验均证明了所提出方法的有效性。然而,本项研究的一个关键局限性在于只关注了纯粹的无监督场景。在部分标签可用的现实场景中,可以使用标签信息来为异构图学习更好的图结构。这种监督或半监督问题留给未来探索。