Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
Lechao Xiao 1 2 Yasaman Bahri 1 2 Jascha Sohl-Dickstein 1 Samuel S. Schoenholz 1 Jeffrey Pennington 1
Abstract
现如今训练深层神经网络的方法是用residual模块和batch normalization,但是这些对于网络本身的功能来说不一定是必须的,可能加入这些层仅仅是为了便于训练。本文提出只要初始化合适,训练10000层也是有可能的,具体方法是利用信号传播的mean field理论和输入输出间Jacobi矩阵奇异值平衡的dynamic isometry条件,说明卷积算子应该是在保范意义下的正交变换,并提出了一种相应的生成这样的随机初始化卷积核的算法。
回忆线性代数/矩阵代数,正交算子的定义是
Introduction
mean field理论近年来被用于研究随机初始化的神经网络,可以分析信号传播的最大深度,并且从经验上得出网络只有在信号能够遍传的时候才能有效训练。对于全连接网络,还分析得到了初始化参数空间中网络从有序到混沌的相变的存在性。在分界面上初始化的网络,信号可以不确定地传播,从而任意深度神经网络都能训练。该理论只能捕捉随机神经网络的平均动态特性,不能量化对于梯度下降的稳定性起关键作用的那部分梯度流的大小。
dynamic isometry条件要求每一层的特征值接近1。首先计算输入输出间的Jacobi矩阵,用随机矩阵理论量化奇异值的分布和随机初始化权重的分布,得出了Jacobi矩阵well-conditioned的时候训练最有效的结论,而该准则可以用正交权重实现。
以上结论是神经网络理论方面的重要工作,但是还局限于全连接网络,本文就是要把上述结论推广到卷积神经网络中去,并得到如下结论:
1. 在channel数较大的时候,即使图像很小,一个well-defined mean field theory对于CNN也是存在的;
2. CNN有着和全连接网络完全一致的从有序到无序的相变,有序的时候梯度消失,无序的时候梯度爆炸;
3. 同全连接网络一样,在临界面上初始化的网络可以相对简单地进行训练。
为了构造上述正交卷积算子,本文利用小波分析的方法生成带block-circulant结构的随机正交矩阵,用于初始化卷积算子。该初始化方法称为Delta-Orthogonal初始化。
Orthogonal Initialization for CNN
正交核:
,其中 ∗ ∗ 是卷积
分块卷积操作:若 B={
Bi,j|i,j∈{
1,2,...,p},B