在《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》 中,作者对《Convolutional Neural Networks on Graphs
with Fast Localized Spectral Filtering》作出了改进,提出了以下创新:
(1)提出了一个可以直接在图上操作的神经网络模型的逐层传播规则;
(2)证明了这种形式的图卷积网络怎样在图上实现半监督的节点分类;
1.神经网络模型的逐层传播规则
卷积公式的频域表示:
g
∗
x
=
U
g
θ
U
T
x
(1)
g*x=Ug_{\theta}U^{T}x\tag{1}
g∗x=UgθUTx(1)
定义
L
L
L为对称归一化图拉普拉斯矩阵,
L
=
I
N
−
D
−
1
2
A
D
−
1
2
=
U
Λ
U
T
L=I_{N}-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}=U\Lambda U^{T}
L=IN−D−21AD−21=UΛUT,
A
A
A是无向图的邻接矩阵(可以是二值,也可以是权值),
D
i
i
=
∑
j
A
i
j
D_{ii}=\sum_{j}{A_{ij}}
Dii=∑jAij是图的度矩阵。
U
U
U是
L
L
L特征向量矩阵。
L
L
L的特征值范围为[0,1]。
由论文《Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering》得到,式(1)可以推导为:
g
θ
′
(
Λ
)
≈
∑
k
=
0
K
θ
k
′
T
k
(
Λ
~
)
(2)
g_{\theta^{'}}(\Lambda) \approx \sum_{k=0}^{K}{\theta_{k}^{'}}T_{k}(\tilde\Lambda)\tag{2}
gθ′(Λ)≈k=0∑Kθk′Tk(Λ~)(2)
其中
Λ
~
=
2
λ
m
a
x
Λ
−
I
N
\tilde\Lambda=\frac{2}{\lambda_{max}}\Lambda-I_{N}
Λ~=λmax2Λ−IN,
θ
′
∈
R
K
\theta^{'}\in R^{K}
θ′∈RK是切比雪夫系数。得到:
g
∗
x
≈
∑
k
=
0
K
θ
k
′
T
k
(
L
~
)
x
g*x \approx \sum_{k=0}^{K}{\theta_{k}^{'}}T_{k}(\tilde L)x
g∗x≈∑k=0Kθk′Tk(L~)x,其中
L
~
=
2
λ
m
a
x
L
−
I
N
\tilde L=\frac{2}{\lambda_{max}}L-I_{N}
L~=λmax2L−IN。
L
~
\tilde L
L~的特征值范围为[-1,1]。
当使用
K
=
1
K=1
K=1时,式(2)在频域变为线性函数,即:
g
∗
x
≈
θ
0
′
x
+
θ
1
′
(
2
λ
m
a
x
L
−
I
N
)
x
(3)
g*x\approx \theta_{0}^{'}x+\theta_{1}^{'}(\frac{2}{\lambda_{max}}L-I_{N})x\tag{3}
g∗x≈θ0′x+θ1′(λmax2L−IN)x(3)
将
λ
m
a
x
≈
2
\lambda_{max}\approx2
λmax≈2,则
g
∗
x
≈
θ
0
′
x
+
θ
1
′
(
L
−
I
N
)
x
=
θ
0
′
x
−
θ
1
′
(
D
−
1
2
A
D
−
1
2
)
x
(4)
g*x\approx \theta_{0}^{'}x+\theta_{1}^{'}(L-I_{N})x=\theta_{0}^{'}x-\theta_{1}^{'}(D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x\tag{4}
g∗x≈θ0′x+θ1′(L−IN)x=θ0′x−θ1′(D−21AD−21)x(4)
由于
θ
0
′
,
θ
1
′
\theta_{0}^{'},\theta_{1}^{'}
θ0′,θ1′是训练参数,是可调整的,使得
θ
0
′
=
−
θ
1
′
=
θ
\theta_{0}^{'}=-\theta_{1}^{'}=\theta
θ0′=−θ1′=θ,那么
g
∗
x
≈
θ
(
I
N
+
D
−
1
2
A
D
−
1
2
)
x
(5)
g*x\approx \theta(I_{N}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x\tag{5}
g∗x≈θ(IN+D−21AD−21)x(5)
I
N
+
D
−
1
2
A
D
−
1
2
I_{N}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}
IN+D−21AD−21的特征值范围为[0,2],可能会导致梯度消失和梯度爆炸的问题,将
I
N
+
D
−
1
2
A
D
−
1
2
I_{N}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}
IN+D−21AD−21再次归一化为
D
~
−
1
2
A
~
D
~
−
1
2
\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}
D~−21A~D~−21,其中,
A
=
~
A
+
I
N
A\tilde = A+I_{N}
A=~A+IN,
D
~
i
i
=
∑
j
A
~
i
j
\tilde D_{ii}=\sum_{j}\tilde A_{ij}
D~ii=∑jA~ij,可以有效的避免这个问题,同时由于
θ
\theta
θ为一个数,可以放到等式的最后,得到:
g
∗
x
≈
(
D
~
−
1
2
A
~
D
~
−
1
2
)
x
θ
(6)
g*x\approx(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}})x \theta\tag{6}
g∗x≈(D~−21A~D~−21)xθ(6)
当信号
x
x
x为多通道信号
X
∈
R
N
×
C
X\in R^{N×C}
X∈RN×C时,并且使用
F
F
F个卷积核,使得每个输出节点的通道数为
F
F
F,则:
Z
=
(
D
~
−
1
2
A
~
D
~
−
1
2
)
X
Θ
(7)
Z=(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}})X\Theta\tag{7}
Z=(D~−21A~D~−21)XΘ(7)
C C C为输入节点的通道数, F F F为输出节点的通道数,同时也是卷积核数目; Θ ∈ R C × F \Theta \in R^{C×F} Θ∈RC×F为这 F F F个卷积核的参数。
2.半监督的节点分类
令
D
~
−
1
2
A
~
D
~
−
1
2
=
A
^
,
Θ
=
W
\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}=\hat A,\Theta=W
D~−21A~D~−21=A^,Θ=W,则两层的图卷积分类网络可以表示为:
Z
=
f
(
X
,
A
)
=
s
o
f
t
m
a
x
(
A
^
R
e
L
U
(
A
^
X
W
(
0
)
)
W
(
1
)
)
(8)
Z=f(X,A)=softmax(\hat A\ ReLU(\hat AXW^{(0)})W^{(1)})\tag8
Z=f(X,A)=softmax(A^ ReLU(A^XW(0))W(1))(8)
需要说明的是,一个图就是一个样本,每个样本在逐层传播的过程中认为
A
^
\hat A
A^是一样的,也就是说每层中
A
^
\hat A
A^是共享的。
s
o
f
t
m
a
x
(
x
i
j
)
=
e
x
p
(
x
i
j
)
∑
j
e
x
p
(
x
i
j
)
softmax(x_{ij})=\frac{exp(x_{ij})}{\sum_{j}exp(x_{ij})}
softmax(xij)=∑jexp(xij)exp(xij),
i
∈
[
1
,
N
]
,
j
∈
[
1
,
F
]
,
x
i
∈
R
1
×
F
i \in [1,N],j \in [1,F],x_{i} \in R^{1×F}
i∈[1,N],j∈[1,F],xi∈R1×F表示两层卷积后输出
(
R
N
×
F
)
(R^{N×F})
(RN×F)的第
i
i
i行。交叉熵为
L
=
−
∑
l
∈
Y
L
∑
f
=
1
F
Y
l
f
l
n
Z
l
f
L=-\sum_{l\in Y_{L}}\sum_{f=1}^{F}Y_{lf}lnZ_{lf}
L=−∑l∈YL∑f=1FYlflnZlf,其中
Y
L
Y_{L}
YL是有标签节点的集合。