实验和理论证明,神经网络深度和宽度是表示网络的两个核心因素,但深度比宽度在增加复杂性方面更有效(VGG模型)。但随着网络加深,训练会越来越麻烦,误差信号的多层反向会引起梯度消失(回传过程中训练误差及其微弱),和梯度爆炸(梯度过大,导致训练出现Nan)现象。目前概述梯度这些现象的策略有:权重初始化策略,批量规范化策略。
但随着网络加深,训练误差不降反而升高了,(一般线性能求得好的解,那么它对应的深层网络只是也可以,而不是很差)。所以后面出现了残差网络解决了这个问题。
高速公路网络(highway network)
受lstm中门机制的启发,对前馈网络修正让信息在多层直接高效流动。
设输入x.参数w,输出y,那么通过非线性激活f有:y=f(x,w)
高速公路网络加了转化门和携带门:y=f(x,w)*t(x,w)+x(1-t(x,w))
保留了输入数据x的强度,控制非线性变换强度,也就是非线性和x的加权组合。对于特定的变换可以退化为常规网络。
深度残差网络:
残差网络f(x,w)=y-x
要学习的f(x,w)是输出经过非线性激活与输入经过非线性激活的差,这两个分支经过简单的整合后在经过非线性激活,形成网络的残差模块。多个残差模块堆叠的网络结构称为残差网络。(不过有时候这种还不是很有效),又出现了改进的残差模块,即经过多层卷积核非线性化后的再与多层之前的某个输入的非线性化做加权组合。
残差网络在输入情况一致的情况下不需要引入额外的计算量。高速公路网络则需要计算携带门和控制门的额外运算。
残差网络可以通过近路来连接梯度信息使得梯度有效传播。其实残差网络是更深的VGG,不过以全局平均汇合代替了VGG网络结构中的全连接,减小了参数,避免了过拟合风险。(全局平均汇合操作代替全连接是思想是在2015年googlenet中提出的)