在该博客中,我们将探讨图(Graph)的表达能力,以便深入了解图结构是如何学习的,尽管它本质上是基于特征的。作为案例研究,我们考虑GraphSAGE是否能够学习预测节点的聚类系数,即节点的1跳邻域内封闭三角形的比例[38]。聚类系数是衡量节点局部邻域聚类程度的常用方法,它是许多更复杂的结构基元的构建块[3]。我们可以证明算法1能够将聚类系数近似到任意精度。
假设图的聚合过程为算法1所示:
定理
设
x
v
∈
U
,
∀
v
∈
v
x_v∈U,∀v∈v
xv∈U,∀v∈v表示算法1在图
G
=
(
v
,
E
)
G = (v, E)
G=(v,E)上的特征输入,其中U是
R
d
R^d
Rd的任意紧子集。设存在一个固定的正常数
C
∈
R
+
C∈R^+
C∈R+,使得对于所有节点对
∣
∣
x
v
−
x
v
′
∣
∣
2
>
C
||x_v−x_{v'}||_2 > C
∣∣xv−xv′∣∣2>C。则对于算法1存在参数
θ
∗
\theta^*
θ∗,经过
K
=
4
K=4
K=4迭代,使得误差小于
∀
ϵ
>
0
∀\epsilon > 0
∀ϵ>0:
其中
z
v
∈
R
z_v∈R
zv∈R为算法1生成的最终输出值,
c
v
c_v
cv为节点聚类系数。
为了证明定理1,我们首先证明三个引理:
- 引理1指出存在一个连续函数,该函数保证仅在闭球中围绕固定数量的点为正,并具有一定的噪声容限。
- 引理2指出,我们可以使用具有单个隐藏层的多层感知器将引理1中的函数近似到任意精度。
- 引理3建立在前两个引理的基础上,以证明池化架构可以学习将节点映射到唯一的指示向量,假设所有输入特征向量都足够不同。
我们还依赖于这样一个事实,即最大池算子(至少有一个隐藏层)能够以任意精度逼近任何Hausdorff连续对称函数。
我们注意到,以下所有论点本质上都是可识别性论点。我们证明了存在一个参数设置,算法1可以学习节点聚类系数,这是不明显的,因为它是通过聚合特征信息来操作的。所描述的函数的高效可学习性是今后工作的主题。我们还注意到,这些证明在某种意义上是保守的,即聚类系数实际上可以在更少的迭代中识别,或者使用比我们施加的更少的限制。此外,由于我们依赖于两个普遍的近似定理[15,29],所需的维数原则上为O(|V|)。我们可以提供一些特定层(例如……)所需输出维度的更有信息量的边界。(例如 引理3); 然而,在最坏的情况下,这个可辨识性参数依赖于维度为O(|V|)。但值得注意的是,Kipf等人的“无特征”GCN方法参数维数为O(|V|),所以这个要求并非完全不合理[17,18]。
遵循定理1,我们设 x v ∈ U , ∀ v ∈ v x_v∈U,∀v∈v xv∈U,∀v∈v表示图上算法1的特征输入 G = ( V , E ) G = (V, E) G=(V,E)其中 U U U是 R d R^d Rd的任意紧子集:
引理1。设
C
∈
R
+
C∈R^+
C∈R+是一个固定的正常数。则对于任意节点D的非空有限子集,存在一个连续函数
g
:
U
→
R
g: U→R
g:U→R,满足
其中
ϵ
\epsilon
ϵ 是选择的误差容忍度。
证明:
存在许多这样的函数。就具体而言,我们提供了一种满足这些标准的结构。设
x
∈
U
x∈U
x∈U表示
g
g
g的任意输入,设
d
v
=
∣
∣
x
−
x
v
∣
∣
2
d_v = ||x−x_v||_2
dv=∣∣x−xv∣∣2,∀v∈D,并设g定义为
g
(
x
)
=
∑
v
∈
D
g
v
(
x
)
g(x) = \sum_{v∈D}g_v(x)
g(x)=∑v∈Dgv(x) 且
还要注意
g
g
g在定义域(
d
v
∈
R
+
d_v∈R^+
dv∈R+)上是连续的,因为它是连续函数的有限集合的和。
引理2:其为万能逼近定理。
引理3。设
A
A
A为
G
G
G的邻接矩阵,设
N
2
(
v
)
N^2(v)
N2(v)表示节点
v
v
v的2跳邻域,定义
χ
(
G
4
)
χ(G4)
χ(G4)为邻接矩阵为
A
4
A^4
A4的图的色数(忽略自环)。设存在一个固定的正常数
C
∈
R
+
C∈R^+
C∈R+,使得对于所有节点对
∣
∣
x
v
−
x
v
′
∣
∣
2
>
C
||x_v−x_{v'}||_2 > C
∣∣xv−xv′∣∣2>C。然后,我们得到算法1存在一个参数设置,使用深度
k
=
1
k = 1
k=1的池化聚合器,其中池化聚合器具有≥2个具有整流非线性单元的隐藏层,使得
其中
E
χ
(
G
4
)
\mathcal{E}χ(G4)
Eχ(G4)是维数χ(G4)的单热指示向量的集合。
证明:根据色数的定义,我们知道我们可以使用 χ ( G 4 ) χ(G4) χ(G4)唯一的颜色标记 V V V中的每个节点,这样在任何节点的2跳邻居中共同出现的两个节点都不会被分配相同的颜色。因此,对于 χ ( G 4 ) χ(G4) χ(G4)维,我们可以为每个节点分配一个唯一的单热指示向量,其中在任何2跳邻居中共同出现的两个节点都没有相同的向量。也就是说,每一种颜色都定义了一个节点的子集 D D D,该子集的节点都可以映射到同一个指标向量上,不存在冲突。
根据引理1和2,并假设所有对节点的
∣
∣
x
v
−
x
v
′
∣
∣
2
>
C
||x_v−x_{v'}||_2 > C
∣∣xv−xv′∣∣2>C,我们可以选择一个
ϵ
<
0.5
\epsilon < 0.5
ϵ<0.5,并且存在一个单层MLP
f
θ
σ
f_{θ_σ}
fθσ,使得对于任意一个子集
D
D
D:
通过使该MLP更深一层,特别是使用整流线性激活函数,我们可以仅对子集
D
D
D中的节点返回正值,否则返回零,并且,由于我们在应用聚合器层后进行了归一化,因此该单个正值可以映射到指示向量。此外,我们可以创建
χ
(
G
4
)
χ(G4)
χ(G4)这样的MLP,其中每个MLP对应于不同的颜色/子集;等价地,每个MLP对应于主文本方程3中的不同最大池化维度。
现在我们给出定理1的证明。
证明:在不损失一般性的情况下,我们描述了如何计算任意节点 v v v的聚类系数。为了便于标记,我们使用⊕来表示向量拼接, d v d_v dv来表示节点 v v v的度。这个证明需要算法1的4次迭代,其中我们在所有深度使用池聚合器。为了清晰起见,我们忽略了与向量归一化相关的问题,我们使用池化聚合器可以将任何Hausdorff连续函数近似到任意精度的事实。
请注意,我们总是可以通过让聚合器在所有输出表示前添加一个单位值来解释规范化常量(算法1中的第7行);然后,可以在以后的层中通过取这个前置值的倒数来恢复归一化常数。还要注意,几乎肯定存在这样的设置,即下面描述的对称函数可以通过池聚合器(或其变体)精确计算,但是**[29]的对称通用近似定理以及Lipschitz连续性参数足以证明聚类系数的可识别性(达到任意精度)**。特别是,下面描述的函数,我们需要近似来计算聚类系数,在它们的域上都是Lipschitz连续的(假设我们只在正度的节点上运行),所以近似引入的误差仍然由固定常数(可以任意小)限制。
我们假设深度k = 2和k = 3处的权重矩阵 W 1 , W 2 W^1,W^2 W1,W2是单位矩阵,并且所有非线性都是校正线性单位。此外,对于最后的迭代(即k = 4),我们完全忽略邻域信息,并简单地将这些层视为具有单个隐藏层的MLP。定理1可以等价地表述为需要K = 3次算法1的迭代,然后将表示形式馈送到单层MLP。
根据引理3,我们可以假设在深度k = 1时,v的2跳邻域中的所有节点都有唯一的单热指示向量,
h
v
1
∈
E
I
h^1_v∈\mathcal{E}_I
hv1∈EI。因此,在算法1的深度k = 2处,假设我们对相邻节点的非规范化表示求和。然后,在不丧失一般性的前提下,我们将得到
h
v
2
=
h
v
1
⊕
A
v
h^2_v = h^1_v⊕A_v
hv2=hv1⊕Av,其中A是包含G4中与v相连的所有节点的子图的邻接矩阵,
A
v
A_v
Av是与v对应的邻接矩阵的行。然后,在深度k = 3时,再次假设我们将相邻表示相加(以权矩阵为单位),然后我们将得到它
让m表示
h
v
1
h^1_v
hv1向量的维数 (即,m≡引理3中的χ(G4)) 并用方括号表示向量索引,我们可以观察到
因此,我们得到
b
T
c
b^Tc
bTc是只包含
v
v
v及其近邻且
∑
i
=
0
m
b
[
i
]
=
d
v
\sum_{i=0}^m b[i] = d_v
∑i=0mb[i]=dv的子图中的边数。最后我们可以计算
由于这是
h
v
3
h^3_v
hv3的连续函数,我们可以用单层MLP将其近似为任意
ϵ
\epsilon
ϵ 精度 (或者等效地,忽略邻域信息,再迭代一次算法1)。同样,最后一步直接来自[15]。
证毕
推论2。假设我们从任意概率分布 µ µ µ在 x ∈ U x∈U x∈U中抽取节点特征,其中µ相对于Lebesgue测度是绝对连续的。那么对于特征输入 x v ∼ µ x_v \sim µ xv∼µ,定理1的条件几乎肯定是满足的。
推论2是定理1的直接结果,事实是,对于任何绝对连续的概率分布,在勒贝格测度之外,采样两个相同点的概率为零。根据经验,我们发现GraphSAGE-pool实际上能够通过利用图结构来保持适度的性能,即使是完全随机的特征输入(参见图3)。然而,GraphSAGE-GCN的性能不是那么健壮,这是直观的,因为引理1、2和3直接依赖于池聚合器的通用表达能力。
最后,我们注意到定理1和推论2是相对于一个特定的给定图表示的,因此在某种程度上是可转换的。对于归纳设定,我们可以这样说
推论3。假设对于所有图
G
=
(
V
,
E
)
G = (V, E)
G=(V,E)属于某一类图
G
∗
G^*
G∗,我们有
∃
k
,
d
≥
0
,
k
,
d
∈
Z
∃k, d≥0,k, d∈Z
∃k,d≥0,k,d∈Z,使得
那么我们可以在算法1的
K
=
K
+
4
K = K + 4
K=K+4次迭代后将聚类系数近似为任意的
ϵ
\epsilon
ϵ。
推论3简单地说明,如果经过算法1的k次迭代,我们可以学习唯一地识别一类图的节点,那么我们也可以将这类图的聚类系数近似为任意精度。
关注微信公众号,获取更多资讯内容: