Dynamical Isometry and a Mean Field Theory of CNNs

Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks

Lechao Xiao 1 2 Yasaman Bahri 1 2 Jascha Sohl-Dickstein 1 Samuel S. Schoenholz 1 Jeffrey Pennington 1

Abstract

现如今训练深层神经网络的方法是用residual模块和batch normalization,但是这些对于网络本身的功能来说不一定是必须的,可能加入这些层仅仅是为了便于训练。本文提出只要初始化合适,训练10000层也是有可能的,具体方法是利用信号传播的mean field理论和输入输出间Jacobi矩阵奇异值平衡的dynamic isometry条件,说明卷积算子应该是在保范意义下的正交变换,并提出了一种相应的生成这样的随机初始化卷积核的算法。
回忆线性代数/矩阵代数,正交算子的定义是

Ax=x ‖ A x ‖ = ‖ x ‖
ATA=I A T A = I ,易知 A A 的任意特征值模为1.

Introduction

mean field理论近年来被用于研究随机初始化的神经网络,可以分析信号传播的最大深度,并且从经验上得出网络只有在信号能够遍传的时候才能有效训练。对于全连接网络,还分析得到了初始化参数空间中网络从有序到混沌的相变的存在性。在分界面上初始化的网络,信号可以不确定地传播,从而任意深度神经网络都能训练。该理论只能捕捉随机神经网络的平均动态特性,不能量化对于梯度下降的稳定性起关键作用的那部分梯度流的大小。
dynamic isometry条件要求每一层的特征值接近1。首先计算输入输出间的Jacobi矩阵,用随机矩阵理论量化奇异值的分布和随机初始化权重的分布,得出了Jacobi矩阵well-conditioned的时候训练最有效的结论,而该准则可以用正交权重实现。
以上结论是神经网络理论方面的重要工作,但是还局限于全连接网络,本文就是要把上述结论推广到卷积神经网络中去,并得到如下结论:
1. 在channel数较大的时候,即使图像很小,一个well-defined mean field theory对于CNN也是存在的;
2. CNN有着和全连接网络完全一致的从有序到无序的相变,有序的时候梯度消失,无序的时候梯度爆炸;
3. 同全连接网络一样,在临界面上初始化的网络可以相对简单地进行训练。
为了构造上述正交卷积算子,本文利用小波分析的方法生成带block-circulant结构的随机正交矩阵,用于初始化卷积算子。该初始化方法称为Delta-Orthogonal初始化。

Orthogonal Initialization for CNN

正交核: x , w x = x ,其中 是卷积
分块卷积操作:若 B={ Bi,j|i,j{ 1,2,...,p},B

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值