残差网络(Deep Residual Learning for Image Recognition的个人理解)

在这里插入图片描述

1、发现问题:当更深层次的网络能够开始收敛时,梯度问题就暴露出来了:随着网络深度的增加,精度会饱和(这可能并不奇怪),然后下降很快。

2、分析问题:
1)正确率下降表明并非所有的系统都是很容易优化的。退化问题表明很难用多个非线性层来逼近一个映射。
2)在文献中,验证了在前向传播中没有出现0方差、在反向传播的梯度与BN表现出正常的规范,这两方面说明了退化问题不是梯度消失所导致的。在18层与34层的比较中,其实34层网络仍能达到竞争性的精度,这就说明深层网络在一定程度上是可行的。推测导致退化问题可能是有指数级的低收敛速度引起的。
3)但是我们比较浅层结构和深层结构,深层结构是通过构造来解决问题的方法,它是浅层结构的映射、是一种复制。这种结构表现出深层的表现不比浅层的差。但是几乎所有的模型都没有达到这个效果。

3、可能的原因:不是添加的每层网络都对网络的正确率有提升的作用。
通过残差学习的表述,如果单位映射的效果是最好的,则将其他的非线性层的权重设为0,从而逼近单位向量。

4、引出残差网络:不是让每层都对最后的结果起作用,只有那些对正确率提高的层,网络才会采纳。
所提出的残差网络涉及到的核心问题
1)当输入和输出具有相同的尺寸时,可以直接使用identityshortcuts
在这里插入图片描述

2)当维度增加时
在这里插入图片描述

我们考虑两个选项:
(A)为增加维度填充额外的0。此选项不引入额外参数;
(B)使用1X1X(维度)的卷积完成。

6、结果:我们在ImageNet[36]上进行了综合实验,以说明退化问题并评估我们的方法。结果表明:
在这里插入图片描述

1)我们的极深残差网很容易优化,但是对应的“普通”网(简单地堆叠层)在深度增加时表现出更高的训练误差;
2)我们的深残差网可以很容易地从深度的大幅增加中获得精度增益,产生的结果大大优于以前的网络。

7、参考文献:
He K , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[C]// IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2016.

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值