ResNet

论文链接:https://arxiv.org/abs/1512.03385

1. 论文背景

(1)为什么神经网络没有发展得越来越深?
 因为随着网络深度的增加会出现梯度消失或爆炸的问题,导致无法收敛。但是这一问题可以利用归一化(normalized initialization and intermediate normalization layers)在很大程度上解决。(注:为什么会出现梯度消失与梯度爆炸的问题? 请参见https://blog.csdn.net/qq_33254870/article/details/88925000)

(2)梯度消失问题解决了,理论上随着网络深度的增加错误率应该越来越低了,但是实验证明结果并不是预想的这样,为什么?
 作者在论文中定义这种现象为退化(degradation) 问题,产生这种问题的原因是深层网络不容易优化。值得提醒的是,作者明确指出优化困难不是因为梯度消失造成的。另外,深层网络也能够达到competitive accuracy,只是收敛速度慢而已。(对于ResNet是否解决了梯度消失问题观点不一,按照原文的意思我认为没有做到这一点)

2. 论文亮点

(1)网络容易优化,并且随着深度的增加会有更好的结果。
(2) In our case, the shortcut connections simply perform identity mapping, and their outputs are added to the outputs of the stacked layers. Identity short-cut connections add neither extra parameter nor computational complexity. (注:为什么没有增加计算复杂度?

3. 论文细节

(1)为什么残差函数更容易学习?或者说残差网络更容易优化?
 这个问题作者也没在原理上进行说明,只是通过实验进行了verification。

(2)对于恒等映射维度增加的问题
在这里插入图片描述
 经过block内第一个layer特征图大小发生了变化,在F(x)+x时使用extra zero entries padded又变回了原来的大小,这就是Fig 3. Right中的虚线部分。

(3)Indentity ShortcutsProjection Shortcuts,其中Projection Shortcuts有ABC三种方式。
在这里插入图片描述
但这里我有点不理解,既然进行比较应该只有一个自变量,但是ABC都分别混合着 zero-padding shortcuts、projection shortcuts、identity shortcuts,怎么能进行ablation study?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值