对ResNet的学习

背景介绍

ResNet,CVPR2016

Introduction

“Deep convolution neural networks have led to a series of breakthroughs for image classification.”

作者说,深度解决神经网络使得图像分类出现了很多突破性的进展。这是因为深度网络能够合并不同层次的特征信息。

“Recent evidence reveals that network depth is of crucial importance ”

最近的工作VGG,GoogleNet都说明网络的深度对模型的性能是至关重要的。

“Is learning better networks as easy as stacking more layers?”

那既然网络的深度对性能如此重要,是否可以通过堆叠更多的层实现性能更好的模型呢?

答案当然是No,不行。

首先,就要考虑阻碍收敛的梯度消失/爆炸。但是,这个问题也被“normalized initialization and intermediate normalization layers”解决,BN和SGD使得模型收敛。
其次,当深度网络能够收敛,一个新的问题就出现了,“degradation”,网络退化。
如图,网络退化指的是深层神经网络表现更差,在训练集和测试集上都不如千层浅层网络。从下面这张图(来源:ResNet原论文),更深的模型比浅层模型训练误差越多。
在这里插入图片描述
在这里,要明确一点,网络退化不是过拟合造成的。
过拟合:模型在训练集上效果好,但是在训练集上效果差。

“But experiments show that our current solvers on hand are unable to find solutions that are comparably good or better than the constructed solution.”

现有的方案没有更好的解决问题的方法了,我的就是最好的。
然后总结了一下本文工作,作者使用“deep residual learning framework”来解决网络退化。同时,拟合“residual mapping”,而不是拟合“underlying mapping”。

“We hypothesize that it is easier to optimize the residual mapping than to optimize the original,unreferenced mapping “

这句话也介绍了优化“residual mapping”更简单。

*“the shortcut connections simply perform identity mapping,and their outputs are added to the outputs of the stacked layer.”

“shortcut connection”完成恒等映射(identity connection),然后把输出(恒等映射,行)和新增的层的输出(F(x))一起作为输出。

ResNet架构

Deep Residual Learning

Residual Learning

首先,H(x)是“underlying mapping”,x: “the inputs to the first of these layers”

“So rather than expect stacked layers to approximate H(x),we explicitly let these layers approximate a residual function F(x):=H(x)-x.”

这句话也是前面那个意思,本文不再拟合“underlying mapping”,而是拟合F(x)(“residual mapping”)。

“if the added layers can be constructed as identity mapping, a deeper model should have training error no greater than its shallower counterpart.”

如果增加的层可以被构造层恒等映射,那么一个更深层模型(shallower ➕added)的训练误差不会大于对应的浅层模型(shallower)。
然后,作者又说,比起拟合一个“zero mapping”,拟合一个“identity mapping”更容易。

Identity Mapping by Shortcuts

在这里插入图片描述
在这里插入图片描述
x是浅层网络的输出,同时也是新增层的输入,y是加深后模型的输出。
F+x,是由shortcut connection和element- wise addition执行的。

Network Aechitestures

在这里插入图片描述
residual network(右),基于plain network(中)插入shortcut connection,

试验

ImageNet Classification
“We first evaluate 18-layer and 34-layer plain nets.”

在数据集上,使用18层和34层的无残差网络。
由于网络退化,34层网络的训练误差更高。在这里插入图片描述
使用18层和34层的残差网络在这里插入图片描述
通过表2和图4,有三个发现:
1、plain net的时候,34层比18层的误差高,ResNet中,情况相反,34层的误差小于18层。这意味着网络退化问题很好的解决,同时,我们尝试使用更深的网络,获得更高的准确率。
2、和plain net相比,34层的ResNet的top-1误差减少了3.5%。这证实了深度网络中,残差学习的有效性。
3、比较18层的plain net和residual net,发现18层的residual net 收敛的更快。

CIFAR-10 and Analysis
Object Detection on PASCAL and MS COCO
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值