CS231n lecture 9:各大经典网络 AlexNet/VGG/GoogleNet/ResNet(上)

本文翻译总结自CS231n Lecture 9

本篇将深入介绍当前的应用和研究工作中最火的几个CNN网络架构——AlexNet、VGGNet、GoogleNet和ResNet,它们都在ImageNet分类任务中有很好的表现。另外,本篇也会粗略介绍一些其他的架构。

LeNet-5回顾

我们先来回顾一下最基本的LeNet,它可以说是首个效果比较好的CNN。它使用了5x5的卷积核,stride为1。池化层卷积核是2x2的,stride为2。最后还有几个全连接层。网络结构很简单也很容易理解。
01|center

AlexNet

接下来讲的是AlexNet,它是第一个在ImageNet分类上表现不错的大规模的CNN,在2012年一举碾压其他方法获得冠军,于是开启了一个新的时代。

它的基本架构组成如下图,它是由若干卷积层、池化层、归一化层和全连接层组成的。左边方括号里的内容为数据的形状,右边有卷积核的详细参数。总体来说AlexNet和LeNet很像,只不过网络层数大大增加。
02|center
整个网络架构可视化出来是这样的(输入层的224x224应为227x227):
03|center

下面总结一下这个网络的一些特点和小细节:

  1. 它是第一个使用ReLU的网络;
  2. 它使用了局部响应归一化层(Local Response Normalization Layers, LRN),了解LRN可以看这里这里。不过要注意,这种层现在已经不常用了,因为研究发现它的作用不是很大;
  3. 它使用了很多数据增广(data augmentation)技术,比如翻转(flipping)、PCA Jittering、随机裁切(cropping)、颜色归一化(color normalization)等等;
  4. 使用了0.5的dropout;
  5. batch size为128;
  6. SGD Momentum为0.9;
  7. 学习率为0.01,每次loss不降的时候手动除以10,直到最后收敛;
  8. L2 weight decay为5e-4;
  9. 使用7个CNN ensemble(多次训练模型取均值),效果提升为18.2% → \rightarrow 15.4%。

另外提一句,从上面的架构图中,CONV1层的的96个kernel分成了两组,每组48个,这主要是历史原因,当时用的GPU显存不够用,用了两块GPU。CONV1、CONV2、CONV4和CONV5在每块GPU上只利用了所在层一半的feature map,而CONV3、FC6、FC7和FC8则使用了所在层全部的feature map。

AlexNet是第一个使用CNN架构在ImageNet Large Scale Visual Recognition Challenge(ILSVRC)上取得冠军的网络,它能力挺不错,不过后面讲到的一些网络架构更加优秀,也是在我们实际应用中可以优先考虑使用的。

ZFNet赢得了2013年ILSVRC的冠军,它所做的是对AlexNet的超参数进行了一些改进,网络架构没什么太大变化。但在2014年,有两个新的很厉害的网络架构被提出来——VGGNet和GoogleNet。它们与之前网络的主要差异在于网络深度大大增加,相比于AlexNet的8层,它们分别有19层和22层。下面我们分别具体讲

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值