resnet【1】的skip block的示意图
使用一个非线性变化函数来描述一个网络的输入输出,即输入为X,输出为F(x),F通常包括了卷积,激活等操作
将一个输入添加到函数的输出的时候,虽然我们仍然可以用G(x)来描述输入输出的关系,但是这个G(x)却可以明确的拆分为F(x)和X的线性叠加
skip connect的思想,将输出表述为输入和输入的一个非线性变换的线性叠加,没用新的公式,没有新的理论,只是换了一种新的表达
y = H(x,WH) + X,此所谓残差连接,skip connection。
2 为什么要skip connect?
在一定程度上,网络越深表达能力越强,性能越好。随着网络深度的增加,带来了许多问题,梯度消散,梯度爆炸