Dynamical Isometry and a Mean Field Theory of CNNs

最新推荐文章于 2022-03-29 19:06:12 发布

qq_36356761

最新推荐文章于 2022-03-29 19:06:12 发布

阅读量889

点赞数

分类专栏： deep learning

本文链接：https://blog.csdn.net/qq_36356761/article/details/80743045

版权

Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks

Lechao Xiao 1 2 Yasaman Bahri 1 2 Jascha Sohl-Dickstein 1 Samuel S. Schoenholz 1 Jeffrey Pennington 1

Abstract

现如今训练深层神经网络的方法是用residual模块和batch normalization，但是这些对于网络本身的功能来说不一定是必须的，可能加入这些层仅仅是为了便于训练。本文提出只要初始化合适，训练10000层也是有可能的，具体方法是利用信号传播的mean field理论和输入输出间Jacobi矩阵奇异值平衡的dynamic isometry条件，说明卷积算子应该是在保范意义下的正交变换，并提出了一种相应的生成这样的随机初始化卷积核的算法。
回忆线性代数/矩阵代数，正交算子的定义是

∥ A x ∥ = ∥ x ∥

$\lVert Ax\rVert=\lVert x \rVert$ 即

ATA=I A T A = I $A^\mathrm{T}A=I$ ，易知

A A $A$ 的任意特征值模为1.

Introduction

mean field理论近年来被用于研究随机初始化的神经网络，可以分析信号传播的最大深度，并且从经验上得出网络只有在信号能够遍传的时候才能有效训练。对于全连接网络，还分析得到了初始化参数空间中网络从有序到混沌的相变的存在性。在分界面上初始化的网络，信号可以不确定地传播，从而任意深度神经网络都能训练。该理论只能捕捉随机神经网络的平均动态特性，不能量化对于梯度下降的稳定性起关键作用的那部分梯度流的大小。
dynamic isometry条件要求每一层的特征值接近1。首先计算输入输出间的Jacobi矩阵，用随机矩阵理论量化奇异值的分布和随机初始化权重的分布，得出了Jacobi矩阵well-conditioned的时候训练最有效的结论，而该准则可以用正交权重实现。
以上结论是神经网络理论方面的重要工作，但是还局限于全连接网络，本文就是要把上述结论推广到卷积神经网络中去，并得到如下结论：
1. 在channel数较大的时候，即使图像很小，一个well-defined mean field theory对于CNN也是存在的；
2. CNN有着和全连接网络完全一致的从有序到无序的相变，有序的时候梯度消失，无序的时候梯度爆炸；
3. 同全连接网络一样，在临界面上初始化的网络可以相对简单地进行训练。
为了构造上述正交卷积算子，本文利用小波分析的方法生成带block-circulant结构的随机正交矩阵，用于初始化卷积算子。该初始化方法称为Delta-Orthogonal初始化。

Orthogonal Initialization for CNN

正交核： $\forall x, \lVert w \ast x \rVert = \lVert x \rVert$ ，其中 $\ast$ 是卷积
分块卷积操作：若 B={ Bi,j|i,j∈{ 1,2,...,p},B

最低0.47元/天解锁文章

qq_36356761

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Dynamical Isometry and a Mean Field Theory of CNNs

Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural NetworksLechao Xiao 1 2 Yasaman Bahri 1 2 Jascha Sohl-Dickstein 1 Samuel S. Schoenholz 1 Je...
复制链接

扫一扫