GCN的邻接矩阵归一化为什么能解决梯度消失和梯度爆炸

最新推荐文章于 2024-05-28 01:02:36 发布

BinBalll

最新推荐文章于 2024-05-28 01:02:36 发布

阅读量2.7k

点赞数 3

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_43729929/article/details/127540182

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 邻接矩阵归一化

在GCN中，我们常对邻接矩阵 $A$ 进行归一化处理，无论是随机游走归一化还是对称归一化，网上的文章都提到了同一点：
度大的节点在其特征表征中将具有较大的值，度小的节点将具有较小的值。这可能会导致梯度消失或梯度爆炸，也会影响随机梯度下降算法（随机梯度下降算法通常被用于训练这类网络，且对每个输入特征的规模（或值的范围）都很敏感）

1.1 随机游走归一化

简单起见，我们以随机游走归一化[1]为例：
图卷积的原始思想对应公式为：
$H^{(l+1)}=\sigma(AH^{(l)}W^{(l)})$
其中 $l$ 为网络层数，另 $(AH)_i=A_iH=\sum_j A_{ij}H_j$ ，即图卷积是对邻居节点的特征加权求和。

但它存在两个问题：

只考虑了邻居节点而忽略自己——为节点添加自连接，实现上用 $\tilde A=A+I$ 替代 $A$
度大的节点在其特征表征中将具有较大的值，度小的节点将具有较小的值。这会导致数值不稳定，且有可能产生梯度消失或梯度爆炸——使用随机游走归一化，用 $\tilde D = D+I$ 替代D， $\tilde D^{-1}\tilde A$ 替代 $\tilde A$ ，这里：
$(\tilde D^{-1}\tilde AH)_i = (\tilde D^{-1}\tilde A)_iH =(\sum_k \tilde D^{-1}_{ik}\tilde A_i)H =(\tilde{D}_{ii}^{-1}{\tilde A_{i}})H =(\tilde{D}_{ii}^{-1})\sum_j{\tilde A_{ij}}H_j\\ =\sum_j\frac{1}{\tilde D_{ii}}\tilde A_{ij}H_j$
由此可知，随机游走归一化相当于实现了对邻居节点特征之和的求平均，由此解决了特征数值不稳定的问题，但这和梯度消失、梯度爆炸有什么关系呢？

而在介绍反向传播、梯度消失和梯度爆炸的文章中则指出，梯度消失和梯度爆炸是由于激活函数 $\sigma$ 或权重 $W$ 过大或过小导致的。

那么究竟归一化是如何避免梯度消失和梯度爆炸的呢？

要知道GCN的梯度消失和梯度爆炸如何避免，就要先了解GCN的反向传播：

2. GCN反向传播

2.1 随机梯度下降

随机梯度下降(SGD)[2]更新梯度方法如下：
$\theta_{t+1} = \theta_t - \alpha \frac{1}{K} \sum_{(x,y)\in \delta_t} \frac{\partial L(y,f(x,\theta))}{\partial\theta}\ \ \ (1)$
要更新权重 $W$ ，则要计算：
$W_{t+1}=W_t - \alpha\frac{1}{K} \sum_{(x,y)\in\delta_t}\frac{\partial{L(y,f(x,w))}}{\partial W}$
而其中关键是计算 $\frac{\partial L}{\partial W}$ ，而 $\frac{\partial L}{\partial W} = \frac{\partial L}{\partial z}\frac{\partial z}{\partial W}$ ( $z$ 是神经元的输出)，将第一项 $\frac{\partial L}{\partial z}$ 定义为误差 $\delta$ ，那么就可以先求出误差，再求第二项 $\frac{\partial z}{\partial W}$ ，再根据上式(1)更新参数。

2.2 GCN的前向传播和反向传播

GCN前向传播为：
$Z^{(l+1)} = PH^{(l)}W^{(l)},\ H^{(l+1)}=\sigma(Z^{(l+1)})$
其中 $l$ 为网络层数， $P$ 为归一化后的邻接矩阵 $A$ ，前馈计算每层输入 $z^{(l)}$ 和激活值 $a^{(l)}$ 直到最后一层，再计算每层误差 $\delta^{(l)}$ ：
$\delta^{(l)} = \frac{\partial{L}}{\partial{Z}} = \frac{\partial{L}}{\partial{H^{(l)}}}\frac{\partial{H^{(l)}}}{\partial{Z^{(l)}}} = \frac{\partial{L}}{\partial{Z^{(l+1)}}}\frac{\partial{Z^{(l+1)}}}{\partial{H^{(l)}}}\frac{\partial{H^{(l)}}}{\partial{Z^{(l)}}}\ \ \ (2)$
根据前向传播可推得误差传播公式：
$\delta^{(l)}=\delta^{(l+1)}P^TW^{(l)}\sigma^\prime(Z^{(l)})$

得到误差传播公式后，还需要计算参数的导数 $\frac{\partial{L}}{\partial{W^{(l)}}}=\frac{\partial{L}}{\partial{Z^{(l+1)}}}\frac{\partial{Z^{(l+1)}}}{\partial{W^{(l)}}}=\delta^{(l+1)}\frac{\partial{Z^{(l+1)}}}{\partial{W^{(l)}}}$ ，因此现在只需计算：
$\frac{\partial{Z^{(l+1)}}}{\partial{W^{(l)}}} = \frac{\partial {(PH^{(l)}}W^{(l)})}{\partial W^{(l)}} =(PH^{(l)})^T\ \ \ (3)$
然后根据求得参数导数和式(1)更新参数即可，这就是GCN的反向传播过程。

由式(3)可知，每层的梯度计算都需要用到前一层的特征，因此特征数值不稳定就会导致梯度不稳定随层数加深出现梯度消失和梯度爆炸，而归一化解决了特征数值不稳定的问题，从而解决了梯度消失和梯度爆炸问题。

[1] 深度学习：GCN（图卷积神经网络）理论学习总结
[2] GCN的反向传播推导

BinBalll

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
GCN的邻接矩阵归一化为什么能解决梯度消失和梯度爆炸

在GCN中，我们常对邻接矩阵A进行归一化处理，无论是随机游走归一化还是对称归一化，网上的文章都提到了同一点：度大的节点在其特征表征中将具有较大的值，度小的节点将具有较小的值。这可能，也会影响随机梯度下降算法（随机梯度下降算法通常被用于训练这类网络，且对每个输入特征的规模（或值的范围）都很敏感）
复制链接

扫一扫