论文地址:Adaptive Universal Generalized Pagerank Graph Neural Network
文章概览
作者指出了现如今多数GNN的两个缺陷:
- 只适用于同构图;
- 由于过平滑(over-smoothing),不能网络不能堆的特别深。
为此,作者从PageRank那里得到启发,提出了GPR-GNN模型,该模型解决了以上两个缺陷,作者在一系列同构图和异构图上进行了实验,结果表明在半监督结点分类任务上,GPR-GNN的性能相对于现有技术来说有显著的提升。
预备知识
论文符号表:
符号 | 说明 |
---|---|
G = ( V , E ) G=(V,E) G=(V,E) | 无向图, V V V为顶点集, E E E为边集 |
C C C | 结点类别数 |
X ∈ R n × f \mathbf{X} \in \mathbb{R}^{n \times f} X∈Rn×f | 结点的特征矩阵, n n n表示结点数, f f f表示特征维数, X i : \mathbf{X}_{i:} Xi:表示第 i i i行, X : j \mathbf{X}_{:j} X:j表示第 j j j列 |
A \mathbf{A} A | 邻接矩阵 |
A ~ \widetilde {\mathbf{A}} A | 添加自环后的邻接矩阵 |
A ~ s y m \widetilde {\mathbf{A}}_{sym} A sym | 对称的邻接矩阵 |
Kronecker delta function定义如下:
δ
i
j
=
{
0
if
i
≠
j
,
1
if
i
=
j
.
\delta _{{ij}}={\begin{cases}0&{\text{if }}i\neq j,\\1&{\text{if }}i=j.\end{cases}}
δij={01if i=j,if i=j.
同构等级定义如下:
H
(
G
)
=
1
∣
V
∣
∑
v
∈
V
结点
v
同标签的邻居数
结点
v
的邻居总数
\mathcal{H}(G) = \frac{1}{|V|} \sum_{v \in V}{\frac{\text{结点$v$同标签的邻居数}}{\text{结点$v$的邻居总数}}}
H(G)=∣V∣1v∈V∑结点v的邻居总数结点v同标签的邻居数
同构等级越大,表示图的同构性越强。
相关理论
过平滑是怎样产生的
作者以17年提出的经典GCN为例,来解释过平滑产生的原因,该模型的数学形式为:
H
G
C
N
(
k
)
=
ReLU
(
A
~
s
y
m
H
G
C
N
(
k
−
1
)
W
(
k
)
)
,
P
^
G
C
N
=
softmax
(
A
~
s
y
m
H
G
C
N
(
K
−
1
)
W
(
k
)
)
\mathbf{H}_{\mathrm{GCN}}^{(k)}=\operatorname{ReLU}\left(\tilde{\mathrm{A}}_{\mathrm{sym}} \mathbf{H}_{\mathrm{GCN}}^{(k-1)} \mathbf{W}^{(k)}\right), \hat{\mathbf{P}}_{\mathrm{GCN}}=\operatorname{softmax}\left(\tilde{\mathbf{A}}_{\mathrm{sym}} \mathbf{H}_{\mathrm{GCN}}^{(K-1)} \mathbf{W}^{(k)}\right)
HGCN(k)=ReLU(A~symHGCN(k−1)W(k)),P^GCN=softmax(A~symHGCN(K−1)W(k))
其中
H
GCN
(
0
)
=
X
\mathbf{H}^{(0)}_{\text{GCN}} = \mathbf{X}
HGCN(0)=X,而
W
(
k
)
\mathbf{W}^{(k)}
W(k)表示第
k
k
k层可学习的权重矩阵。如果去掉RELU并假设
k
→
∞
k \rightarrow \infin
k→∞,则
lim
k
→
∞
A
~
s
y
m
k
H
(
0
)
=
H
(
∞
)
\lim _{k \rightarrow \infty} \tilde{\mathbf{A}}_{\mathrm{sym}}^{k} \mathbf{H}^{(0)}=\mathbf{H}^{(\infty)}
limk→∞A~symkH(0)=H(∞),
H
(
∞
)
\mathbf{H}^{(\infty)}
H(∞)的每行都只依赖对应结点的度(前提是图是不可约和非周期的)。这是个很重要的结论,该结论表明随着层数的加深,每个结点的特征将会被遗忘,使得结点间的区分性越来越低。
图滤波
作者指出GPR-GNN与多项式的图滤波器是等价的,多项式滤波器的数学形式为:
∑
k
=
0
K
γ
k
A
~
s
y
m
k
\sum_{k=0}^{K} \gamma_{k} \tilde{\mathbf{A}}_{\mathrm{sym}}^{k}
k=0∑KγkA~symk
可以看出它是一个邻接矩阵的
K
K
K次多项式,而其中的
γ
k
\gamma_{k}
γk则是GPR-GNN中要学习的对应于各层的权重,通过学习可以得到一个最优的多项式滤波器。学习到的滤波器可以说是低通滤波器,也可以是高通滤波器。
作者在论文中还给出了一个很重要的结论:在一个连通图 G G G中,如果 ∀ k ∈ { 0 , 1 , . . . , K } , γ k ≥ 0 , ∑ k = 0 K γ k = 0 \forall k \in \{0,1,...,K\}, \gamma_{k} \geq 0, \sum_{k=0}^{K}{\gamma_{k}} = 0 ∀k∈{0,1,...,K},γk≥0,∑k=0Kγk=0 且 ∃ k ′ > 0 \exist k' > 0 ∃k′>0使得 γ k ′ > 0 \gamma_{k'} > 0 γk′>0,则得到一个低通滤波器。而如果 γ k = ( − α ) k , α ∈ ( 0 , 1 ) \gamma_{k} = (-\alpha)^{k}, \alpha \in (0,1) γk=(−α)k,α∈(0,1)且 K K K足够大,则为一个高通滤波器。
GPR-GNN详解
首先给出GPR-GNN模型的可视化图:
其所对应的数学形式为:
P
^
=
softmax
(
Z
)
,
Z
=
∑
k
=
0
K
γ
k
H
(
k
)
,
H
(
k
)
=
A
~
s
y
m
H
(
k
−
1
)
,
H
i
:
(
0
)
=
f
θ
(
X
i
:
)
\hat{\mathbf{P}}=\operatorname{softmax}(\mathbf{Z}), \mathbf{Z}=\sum_{k=0}^{K} \gamma_{k} \mathbf{H}^{(k)}, \mathbf{H}^{(k)}=\tilde{\mathbf{A}}_{\mathrm{sym}} \mathbf{H}^{(k-1)}, \mathbf{H}_{i:}^{(0)}=f_{\theta}\left(\mathbf{X}_{i:}\right)
P^=softmax(Z),Z=k=0∑KγkH(k),H(k)=A~symH(k−1),Hi:(0)=fθ(Xi:)
其中
f
θ
f_{\theta}
fθ是用来生成隐状态特征
H
(
0
)
\mathbf{H}^{(0)}
H(0)的神经网络。从形式上看,GPR-GNN很简单,先让结点特征过一个神经网络学习隐状态,然后便是进行
K
K
K轮的消息传递,最后的特征为
K
K
K层各自学得的表示的线性组合,其中线性组合的参数
γ
k
\gamma_{k}
γk需要通过学习得到。
作者在论文中还指出了他们的模型为什么可以解决过平滑问题,作者指出如果过平滑发生了,则该网络中的高层 k ≥ k ′ k \geq k' k≥k′,其对应的权重 γ k \gamma_{k} γk会趋于0,使得其对最终的表示的影响减少,从而可以缓解过平滑。
图中标红色的为GPR-GNN的可学习参数。
实验
作者分别在合成数据集和真实数据集上都进行了相关的实验。对于合成数据集,作者使用cSBMs模型来生成图,实验过程中对于数据集的划分作者使用了两种模式:
- 稀疏划分(sparse splitting):训练集/验证集/测试集 = 2.5%/2.5%/95%;
- 密集划分(dense splitting):训练集/验证集/测试集 = 20%/20%/60%。
可以看出,GPR-GNN在异构图下,GPR-GNN比其他的基线模型的性能都要好,在同构图下GPR-GNN的性能也与其他基线模型相当,这说明了GPR-GNN的通用性。另外,从实验结果可以看出,当图的拓扑信息不强( ϕ = 0 \phi = 0 ϕ=0)时,GNNs的性能比不过传统的MLP。
ϕ < 0 \phi < 0 ϕ<0时为异构图, ϕ = 0 \phi =0 ϕ=0时拓扑图独立与 node 标签不相关, ϕ > 0 \phi > 0 ϕ>0时为同构图,且 ϕ \phi ϕ越小图异构性越强,越大图的同构性越强。
另外,作者还在一系列真实的同构和异构图上进行了实验,数据集的相关特征和实验结果展示如下:
从上图也可以看出,GPR-GNN也在这些数据集上也处于SOTA地位。