[深度学习]Deep Residual Learning for Image Recognition(ResNet,残差网络)阅读笔记

最新推荐文章于 2024-07-26 10:51:04 发布

lhanchao

最新推荐文章于 2024-07-26 10:51:04 发布

阅读量1.1w

点赞数 3

分类专栏：深度学习文章标签：深度学习残差网络 Residual ResNet

本文链接：https://blog.csdn.net/lhanchao/article/details/64159046

版权

这一篇博文我们介绍的是大神何恺明的大作ResNet的论文，Kaming He绝对是我目前最崇拜的计算机视觉方面的大神，从12年的暗通道去雾的论文到这篇残差网络的论文，看完简直不能更爽，这里一定要隆重介绍一下。
这篇文章是介绍Kaming He等人组成的微软亚洲研究院的队伍参加ILSVRC 2015比赛中所用的网络结构的论文，残差网络一出，简直是把ImageNet上的classification任务给做烂了，top5的正确率达到了惊人的96%以上，已经超过了人类的识别率，网络的层数达到了152层，甚至上千层（要知道2014年的VGGNet中的22层已经用very deep来形容了），2016年的ILSVRC上的第一名也没能提出更有名的网络结构，目前人们应用的最广泛的也就是GoogLeNet、VGGNet和ResNet了。可以这么说ResNet一出，简直一骑绝尘。好了，说了这么多，下面我们来好好介绍一下大名鼎鼎的ResNet。

Abstract

文章是从一个难以解决的问题入手的，从2012年的AlexNet到2014年的GooLeNet和VGGNet，网络结构越来越复杂，层数也越来越深，现在我们也都了解到，只要有足够的训练数据，网络层数越深就越具有更强的学习能力，也就能够拟合出更好的模型，从而获得更好的结果。但是研究人员发现，随着网络层数的加深，网络越来越难以训练。为了解决这个问题，作者提出了我们要介绍的ResNet网络架构，在网络的输入层加入前面网络层的的输出结果，这种结构能够能够使得网络达到更深的层数，同时也易于训练。作者提出的152层的残差网络结构比VGGNet具有更强的学习能力，同时比VGGNet参数更少。不仅仅对于分类任务具有更好的效果，对于detection任务，ResNet同样具有很好的表现，在COCO物体检测的数据集中取得了28%的进步，同时你咋ILSVRC & COCO 2015的比赛中，获得了ImageNet上的classification、detection和localization以及COCO detection、segmentation项目上的第一名。
总之一句话，非常牛叉！

1. 问题导入

从2012年到2015年中近几年深度学习的发展可以看出，人们使用的网络越来越深，而深层的网络往往又表示网络具有更强大的学习能力，能取得更好的结果。作者就提出了一个问题，是不是单纯的堆叠更多层，让网络变得更深就更好呢？我们都知道网络越深就越难拟合，越难训练，同时也会造成梯度消失。目前梯度消失的问题已经被SGD训练算法和一系列的初值赋值方法和Batch Normalization(非常厉害的算法，下一篇文章介绍它)解决掉了。
那么有了这些算法我们可以继续堆网络了吗？现实还是很残酷的，因为实验发现随着网络不断的加深，识别率开始饱和，然后网络再深的话识别率开始下降。有时更深的网络的结果反倒不如浅层的网络（这里的深浅是相对而言的），如下图所示：

然而造成这种问题的原因并不是过拟合（作者好像没说原因）。其实存在这样一种让网络加深的办法，假设我们加深的层没做任何事情（论文中的identity mapping），而剩下的层参数与之前学到的浅层的网络参数相同，这样的话深层的网络识别效果至少不必浅层的网络差，但是我们现在的训练方法并不能学到这种模型。问题就来了，那怎么解决这个问题呢？

2. 问题解决：残差网络(ResNet)

既然我们现在的网络训练方法难以训练处我们现在心中完美的模型（我们心中完美的就是新加层之后的表现很好，能够提高正确率），那么我们退一步，让我们的模型学到更容易学到的，稍差的模型。假设我们心目中的模型，新加的层本来要学到这样一个映射 $\mathcal{H}$ ，现在我们降低要求，让他学到这样一个映射 $\mathcal{F}(x):=\mathcal{H} -x$ ，其中 $x$ 为输入的数据，那么我们最初要学习的映射就是 $\mathcal{F}+x$ ，我们假设学习 $\mathcal{F}(x)$ 比学