caffe学习笔记27-ResNet论文笔记

本文探讨了深度神经网络中出现的性能退化问题,并介绍了ResNet如何通过深度残差学习来解决这个问题。ResNet的引入使得更深层的网络能够在训练和测试误差上保持稳定,其结构包括直线型、局部双分支型和局部多分支型。通过求取残差映射,ResNet简化了优化问题,尤其是当最优映射为恒等映射时,网络参数可趋向于0。
摘要由CSDN通过智能技术生成
ResNet:

1.为使用网络层数更多,通常采用的方法有:初始化算法,BN方法

2.是否简单堆叠的网络层数越多,训练误差和测试误差就越小?答案正好相反

3.准确度下降问题(网络越深,训练误差和测试误差越大):可通过深度残差学习(Deep Residual Learning)来解决

4.目前流行的深度神经网络结构大致可以分为三类:

  - 直线型(如AlexNet, VGGNet)

  - 局部双分支型(ResNet)

  - 局部多分支型(GoogleNet)

很久以前人们就已经认识到更深的网络能够产生更好的数据表达,但是如何训练一个很深的网络却一直是一个困扰人们的问题,这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题,人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法,但是本文作者却发现即使有这些方法,神经网络的训练仍然呈现了degradation的现象。所谓degradation现象,就是随着网络深度的增加,网络的性能反而下降,而且这种性能的下降并不是由前面所说的问题造成的。

    这里我们首先求取残差映射 F(x):= H(x)-x,那么原先的映射就是 F(x)+x。尽管这两个映射应该都可以近似理论真值映射 the desired functions (as hypothesized),但是它俩的学习难度是不一样的。        

    这种改写启发于"网络层数越多,训练和测试误差越大"性能退化问题违反直觉的现象。如果增加的层数可以构建为一个恒等映射(identity mappings),那么增加层数后的网络训练误差应该不会增加,与没增加之前相比较。性能退化问题暗示多个非线性网络层用于近似identity mappings 可能有困难。使用残差学习改写问题之后,如果identity mappings 是最优的,那么优化问题变得很简单,直接将多层非线性网络参数趋0。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值