CS231n lecture 9：各大经典网络 AlexNet/VGG/GoogleNet/ResNet（上）

最新推荐文章于 2024-06-07 20:17:38 发布

gdymind

最新推荐文章于 2024-06-07 20:17:38 发布

阅读量4k

点赞数 1

分类专栏：机器学习文章标签： CNN cs231n alexnet vgg googlenet

本文链接：https://blog.csdn.net/gdymind/article/details/83042729

版权

本文翻译总结自CS231n Lecture 9。

本篇将深入介绍当前的应用和研究工作中最火的几个CNN网络架构——AlexNet、VGGNet、GoogleNet和ResNet，它们都在ImageNet分类任务中有很好的表现。另外，本篇也会粗略介绍一些其他的架构。

LeNet-5回顾

我们先来回顾一下最基本的LeNet，它可以说是首个效果比较好的CNN。它使用了5x5的卷积核，stride为1。池化层卷积核是2x2的，stride为2。最后还有几个全连接层。网络结构很简单也很容易理解。
01|center

AlexNet

接下来讲的是AlexNet，它是第一个在ImageNet分类上表现不错的大规模的CNN，在2012年一举碾压其他方法获得冠军，于是开启了一个新的时代。

它的基本架构组成如下图，它是由若干卷积层、池化层、归一化层和全连接层组成的。左边方括号里的内容为数据的形状，右边有卷积核的详细参数。总体来说AlexNet和LeNet很像，只不过网络层数大大增加。
02|center
整个网络架构可视化出来是这样的（输入层的224x224应为227x227）：
03|center

下面总结一下这个网络的一些特点和小细节：

它是第一个使用ReLU的网络；
它使用了局部响应归一化层（Local Response Normalization Layers, LRN），了解LRN可以看这里和这里。不过要注意，这种层现在已经不常用了，因为研究发现它的作用不是很大；
它使用了很多数据增广（data augmentation）技术，比如翻转（flipping）、PCA Jittering、随机裁切（cropping）、颜色归一化（color normalization）等等；
使用了0.5的dropout；
batch size为128；
SGD Momentum为0.9；
学习率为0.01，每次loss不降的时候手动除以10，直到最后收敛；
L2 weight decay为5e-4；
使用7个CNN ensemble（多次训练模型取均值），效果提升为18.2% $\rightarrow$ 15.4%。

另外提一句，从上面的架构图中，CONV1层的的96个kernel分成了两组，每组48个，这主要是历史原因，当时用的GPU显存不够用，用了两块GPU。CONV1、CONV2、CONV4和CONV5在每块GPU上只利用了所在层一半的feature map，而CONV3、FC6、FC7和FC8则使用了所在层全部的feature map。

AlexNet是第一个使用CNN架构在ImageNet Large Scale Visual Recognition Challenge（ILSVRC）上取得冠军的网络，它能力挺不错，不过后面讲到的一些网络架构更加优秀，也是在我们实际应用中可以优先考虑使用的。

ZFNet赢得了2013年ILSVRC的冠军，它所做的是对AlexNet的超参数进行了一些改进，网络架构没什么太大变化。但在2014年，有两个新的很厉害的网络架构被提出来——VGGNet和GoogleNet。它们与之前网络的主要差异在于网络深度大大增加，相比于AlexNet的8层，它们分别有19层和22层。下面我们分别具体讲

最低0.47元/天解锁文章

gdymind

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
CS231n lecture 9：各大经典网络 AlexNet/VGG/GoogleNet/ResNet（上）

本篇将深入介绍当前的应用和研究工作中最火的几个CNN网络架构——AlexNet、VGGNet、GoogleNet和ResNet，它们都在ImageNet分类任务中有很好的表现。另外，本篇也会粗略介绍一些其他的架构。LeNet-5回顾我们先来回顾一下最基本的LeNet，它可以说是首个效果比较好的comNet。它使用了5x5的卷积核，stride为1。池化层卷积核是2x2的，stride为2。最后...
复制链接

扫一扫

专栏目录