重读经典卷积神经网络-ResNet

最新推荐文章于 2023-03-07 20:35:50 发布

西檬饭

最新推荐文章于 2023-03-07 20:35:50 发布

阅读量269

点赞数

分类专栏： CNN 文章标签：神经网络深度学习 ResNet 残差网络 CNN

本文链接：https://blog.csdn.net/qq_23869697/article/details/107464879

版权

CNN 专栏收录该内容

13 篇文章 5 订阅

订阅专栏

1.目的

为了解决随着网络层次加深带来的训练困难问题而提出了一个新的残差神经网络。
随着网络层次的加深，训练的时候出现梯度消失/爆炸，这导致了网络难以收敛。通过标准化后的初始化和中间初始化层（normalized initialization and intermediate normalization layers）可以使网路开始收敛，但是网络开始收敛之后，又出现其他问题：
“with the network depth increasing, accuracy gets saturated and then degrades rapidly.”
如下图所示：
实际上要解决的问题是为什么随着网络的加深，精度却下降。

2.deep residual learning framework

将目标的映射表示为 $\mathcal{H}(\mathrm{x})$ , 实际的堆叠层映射为 $\mathcal{F}(\mathrm{x})$ , 令
$\mathcal{F}(\mathrm{x}):=\mathcal{H}(\mathrm{x})-\mathrm{x}$
那么目标映射就能表示为： $\mathcal{F}(\mathbf{x})+\mathbf{x}$
另外他们做的假设是：优化残差映射比优化原始未引用映射更容易。
残差网络实现的方式如上如，等价于使用前馈神经网络加上适当的“shortcut connections”。这里的“shortcut connections”不做任何的操作，直接复制原来的值，然后通过相加的方式与堆叠网络的输出合并。直接使用原来的值做跨层连接的好处是不增加额外的参数和计算复杂度，只需要在原来的网络基础上少量修改即可直接训练。

残差结构为什么有效？
如果添加的层可以被构造为identity mappings，即 $\mathcal{F}(\mathrm{x})~x$ ，那么一个更深层次的模型的训练误差应该不大于它的浅层模型。退化问题表明，模型在用多个非线性层逼近同一映射时可能存在困难。在残差学习重构中，如果identity mappings是最优的，则模型可以简单地将多个非线性层的权值趋近于零来逼近identity mappings 。