【深度之眼cs231n第七期】笔记（十九）

最新推荐文章于 2024-05-22 09:38:59 发布

树天先森

最新推荐文章于 2024-05-22 09:38:59 发布

阅读量213

点赞数

分类专栏： cs231n 文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_40923177/article/details/106490826

版权

cs231n 专栏收录该内容

30 篇文章 14 订阅

订阅专栏

AlexNet

卷积层输出大小和参数量的计算：

输出大小：由于输入是227x227x3，且第一个卷积层使用了96个步长为4的11x11的卷积核。
所以，输出的宽（高）= 1+(227-11)/4 = 55，输出通道数=卷积核个数=96。
综上，第一个卷积层的输出为55x55x96。

参数量：每个卷积核有11x11x3个参数，总共96个卷积核，所以第一个卷积层有11x11x3x96个参数。
在这里插入图片描述
池化层输出大小和参数量计算：

输出大小：池化层输入是55x55x96，使用步长为2的3x3卷积核。
输出宽（高）= 1+(55-3)/2 = 27，输出通道 = 输入通道 = 96。
所以，输出大小为：27x27x96。

参数量：池化层不需要参数。
在这里插入图片描述
左边是AlexNet构架，右边是一些细节（超参数、优化器、激活函数等）：
or_FFFFFF,t_70)
由于当时机器运算能力的限制，这个网络是分成两部分分别在两个GPU上训练的，相当于分为两组的组卷积。当然在某些层中（CONV3, FC6, FC7, FC8），组与组之间是有联系的。
在这里插入图片描述
AlexNet是ImageNet Large Scale Visual Recognition Challenge (ILSVRC)比赛中首个基于CNN的赢家（2012年）。
2013年的赢家ZFNet只是更改了AlexNet的一些超参数，比如卷积核的大小，卷积核的个数。

VGG

VGG的特点是使用小卷积核（只用步长为1，padding为1的3x3卷积核和步长为2的2x2最大池化卷积核）+更深的网络（AlexNet的8层->16或19层）

Q：为什么用小卷积核？
A：小卷积核堆叠起来和大卷积核有相同的感受视野，与此同时，神经网络的层数更深，拥有更多的非线性能力，而且相对于大卷积核参数也更少。
在这里插入图片描述
VGG16的架构：
可以看到，内存主要花费在前面几个卷积层（保存数据用于反向传播），参数主要集中在后面的全连接层。

GoogleNet

GoogleNet的特点：以有效的计算实现更深的网络。

网络总共有22层
使用了Inception模块
没有全连接层（事实上只是减少了两个全连接层）
参数比AlexNet少12倍

在这里插入图片描述
inception结构的基本想法是对输入使用不同的卷积核（学习更多样的信息），然后把它们拼接起来。

但是这个结构有个问题：
计算量非常大，每一个inception结构有854M的操作（只算了乘法操作）。
而且通道数会不断增加：通过padding可以保持输出输出大小的宽和高，由于在输出的时候进行的是拼接，所以通道数肯定会增加（池化层会保持输出层通道数不变，再加上另外3个的通道数）。
这样，每经过一个inception结构通道数就会变得更多（宽和高不变），这就导致计算量进一步增加。
在这里插入图片描述
解决的办法是使用1x1的卷积，也就是bottleneck结构。
1x1的卷积能在维持宽和高的情况下减少（也可以增加）通道的维数。这样一来操作数就从845M减少到了358M。

GoogleNet的网络框架:
左边是输入，右边是输出，把中间大部分的卷积层换成了inception结构。
由于网络层数比较深，容易造成梯度消失（特别是在靠近输入层的地方），所以增加了两个额外的辅助输出，用于减缓底层的梯度消失。
在这里插入图片描述

ResNet

研究发现，单纯把卷积层堆叠起来时，更多的层数反而有更高的训练误差和测试误差，而且这不是过拟合导致的（过拟合的训练误差会比较低）。
何凯明他们提出了一个假设：这是由于较深的网络很难优化。
在这里插入图片描述
然后他们也提出了一个解决方案：
不直接学习输出H(x)了，转而学习F(x)=H(x)-x

ResNet的结构：

把残差结构堆叠起来
每个残差结构里有两个3x3的卷积层
周期性地把卷积核的数量变成原来的两倍，并周期性地使用步长为2（/2）的卷积来进行下采样
在开始添加额外的卷积层
只有一个全连接层用于输出
在全连接层前是全局平均池化
对于比较深的网络（50层以上），使用bottleneck增加计算效率

ResNet的一些细节
在这里插入图片描述
ResNet解决了优化问题，所以层数可以增加到152层。
它是所有（5个）2015年ILSVRC和COCO挑战的冠军，也是首个在图像分类方面表现的比人类更好的网络。

2016年的赢家使用了集成网络，集成了inception、inception-ResNet、ResNet、wide ResNet等模型
在这里插入图片描述
2017年是赢家是SENet