【论文阅读】ResNet : Deep Residual Learning for Image Recognition

Deep Residual Learning for Image Recognition

原文链接

Abstract

更深层的神经网络很难训练。ResNet 提出了残差学习的网络框架来简化跟更深层网络的训练。将网络层重新定义为学习基于层输入的残差函数 (residual functions with reference to the layer inputs),而不是直接学习无参考的函数。论文中提供了全面的证据,表明
1)残差网络更容易优化,而简单堆叠网络层会在深度增加的时候便显出更高的训练误差
2)残差网络很容易通过增加网络深度的来提升准确度,产生更好的结果。

Motivation

深度网络以端到端的多层方式集成了低/中/高级特征和分类器,并且特征的“级别”可以通过堆叠层数(即网络深度)来丰富。由网络深度的重要性产生了一个问题:
学习更好的网络是否只需要简单堆叠更多网络层?
Is learning better networks as easy as stacking more layers?

首先要解决的障碍是:梯度消失 / 爆炸 (vanishing/exploding gradients),这从一开始就阻碍网络收敛。这主要通过初始化归一化 (normalized initialization)中间归一化层 (intermediate normalization layers) 来解决,使得数十层的网络能够开始收敛,实现反向传播的随机梯度下降 (SGD)。

更深层的网络收敛后,网络退化问题 (degradation problem) 暴露了:随着网络深度的增加,准确率变得饱和,然后迅速下降。然而,这种退化不是过度拟合 (overfitting) 造成的,在适当深度的模型上添加更多网络层后,训练误差也更高了!(如下图所示)
在这里插入图片描述

训练集上准确率的退化表明了不是所有的系统都是同样容易优化。考虑一个浅层的结构和它更深层次的对应结构,即基于它增加更多网络层。
存在一个构建深层结构的方法:增加的网络层是恒等映射 (identity mapping) ,其他的网络层直接从训练好的浅层结构中复制。这表明了深层的模型不应该产生比其对应的浅层模型更高的训练误差。也就是说,至少应该是相等的训练误差。但实验表明了,现有的求解方法并不能训练得到和浅层模型效果相当或者更好的结果。

Details

论文引入了深度残差学习框架 (deep residual learning framework) 来解决上

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值