[深度学习]Deep Residual Learning for Image Recognition(ResNet,残差网络)阅读笔记

这一篇博文我们介绍的是大神何恺明的大作ResNet的论文,Kaming He绝对是我目前最崇拜的计算机视觉方面的大神,从12年的暗通道去雾的论文到这篇残差网络的论文,看完简直不能更爽,这里一定要隆重介绍一下。
这篇文章是介绍Kaming He等人组成的微软亚洲研究院的队伍参加ILSVRC 2015比赛中所用的网络结构的论文,残差网络一出,简直是把ImageNet上的classification任务给做烂了,top5的正确率达到了惊人的96%以上,已经超过了人类的识别率,网络的层数达到了152层,甚至上千层(要知道2014年的VGGNet中的22层已经用very deep来形容了),2016年的ILSVRC上的第一名也没能提出更有名的网络结构,目前人们应用的最广泛的也就是GoogLeNet、VGGNet和ResNet了。可以这么说ResNet一出,简直一骑绝尘。好了,说了这么多,下面我们来好好介绍一下大名鼎鼎的ResNet。

Abstract

文章是从一个难以解决的问题入手的,从2012年的AlexNet到2014年的GooLeNet和VGGNet,网络结构越来越复杂,层数也越来越深,现在我们也都了解到,只要有足够的训练数据,网络层数越深就越具有更强的学习能力,也就能够拟合出更好的模型,从而获得更好的结果。但是研究人员发现,随着网络层数的加深,网络越来越难以训练。为了解决这个问题,作者提出了我们要介绍的ResNet网络架构,在网络的输入层加入前面网络层的的输出结果,这种结构能够能够使得网络达到更深的层数,同时也易于训练。作者提出的152层的残差网络结构比VGGNet具有更强的学习能力,同时比VGGNet参数更少。不仅仅对于分类任务具有更好的效果,对于detection任务,ResNet同样具有很好的表现,在COCO物体检测的数据集中取得了28%的进步,同时你咋ILSVRC & COCO 2015的比赛中,获得了ImageNet上的classification、detection和localization以及COCO detection、segmentation项目上的第一名。
总之一句话,非常牛叉!

1. 问题导入

从2012年到2015年中近几年深度学习的发展可以看出,人们使用的网络越来越深,而深层的网络往往又表示网络具有更强大的学习能力,能取得更好的结果。作者就提出了一个问题,是不是单纯的堆叠更多层,让网络变得更深就更好呢?我们都知道网络越深就越难拟合,越难训练,同时也会造成梯度消失。目前梯度消失的问题已经被SGD训练算法和一系列的初值赋值方法和Batch Normalization(非常厉害的算法,下一篇文章介绍它)解决掉了。
那么有了这些算法我们可以继续堆网络了吗?现实还是很残酷的,因为实验发现随着网络不断的加深,识别率开始饱和,然后网络再深的话识别率开始下降。有时更深的网络的结果反倒不如浅层的网络(这里的深浅是相对而言的),如下图所示:


这里写图片描述

然而造成这种问题的原因并不是过拟合(作者好像没说原因)。其实存在这样一种让网络加深的办法,假设我们加深的层没做任何事情(论文中的identity mapping),而剩下的层参数与之前学到的浅层的网络参数相同,这样的话深层的网络识别效果至少不必浅层的网络差,但是我们现在的训练方法并不能学到这种模型。问题就来了,那怎么解决这个问题呢?

2. 问题解决:残差网络(ResNet)

既然我们现在的网络训练方法难以训练处我们现在心中完美的模型(我们心中完美的就是新加层之后的表现很好,能够提高正确率),那么我们退一步,让我们的模型学到更容易学到的,稍差的模型。假设我们心目中的模型,新加的层本来要学到这样一个映射 H ,现在我们降低要求,让他学到这样一个映射 F(x):=Hx ,其中 x 为输入的数据,那么我们最初要学习的映射就是 F+x ,我们假设学习 F(x) 比学

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值