cs231n：Lecture 6: CNN Architectures

magic-hl

已于 2024-03-25 08:33:34 修改

阅读量457

点赞数 12

文章标签： cnn 人工智能神经网络

于 2023-12-08 19:53:08 首次发布

本文链接：https://blog.csdn.net/2301_79012932/article/details/134873604

版权

bacth normalization

“你想要零均值和单位方差的激活吗？只需使它们如此。”[Ioffe 和 Szegedy，2015]
考虑某一层的一批激活。为了使每个维度具有零均值和单位方差，应用：

问题：如果零均值、单位方差的限制太过严格怎么办？

在测试期间，Batch Normalization 变成了一个线性操作！可以与前一个全连接或卷积层融合。

- 使深度网络更容易训练！
- 改善梯度流动
- 允许更高的学习率，更快的收敛
- 网络对初始化更加鲁棒
- 在训练期间充当正则化项
- 在测试时零额外开销：可以与卷积融合！
- 在训练和测试期间的行为不同：这是一个非常常见的 bug 源！

为什么使用3x3卷积核？

三个 3x3 的卷积层（步幅为 1）堆叠具有与一个 7x7 的卷积层相同的有效感受野。

问题：为什么使用较小的滤波器？（3x3 卷积）问题：三个 3x3 卷积层（步幅为 1）的有效感受野是多少？

问题1回答：使用较小的滤波器（例如3x3卷积）有几个好处。首先，它们具有更少的参数，因此计算成本较低。其次，它们引入了更多的非线性，从而使网络能够学习更复杂的特征。此外，它们可以更好地捕捉局部特征，有助于提高模型的感知能力。

问题2回答：三个3x3的卷积层（步幅为1）的有效感受野与一个7x7的卷积层相同。这是因为通过堆叠多个3x3的卷积层，网络可以学习更复杂的特征，而这些特征在整体上等效于一个较大滤波器的感受野。这种方式的堆叠提供了更强大的表达能力，同时保持了计算效率。

谷歌网络的特点，使用1x1的卷积核减少了大量要训练的参数

事实：深度模型具有比更浅模型更强的表示能力（更多参数）。
假设：问题是一个优化问题，深度模型更难优化。
为了使深度模型至少与更浅模型一样好，深度模型应该学到什么？
一种构造性的解决方案是从更浅模型中复制已学习的层，并将额外的层设置为恒等映射。

完整的 ResNet 架构：
- 堆叠残差块
- 每个残差块包含两个 \(3 \times 3\) 的卷积层
- 周期性地，将过滤器的数量加倍，并使用步幅2在空间上进行降采样（在每个维度上除以2）
- 在开始处有额外的卷积层（称为 stem）
- 在最后没有全连接层（仅有一个连接到输出类别数的全连接层，通常是 1000 个类别）
- （理论上，可以训练一个具有可变尺寸输入图像的 ResNet）

senet：添加一个“特征重校准”模块，该模块学习自适应地重新加权特征图：
- 全局信息（全局平均池化层）+ 2 个全连接层用于确定特征图的权重
- ILSVRC'17（ImageNet Large Scale Visual Recognition Challenge 2017）分类获胜者（使用 ResNeXt-152 作为基础架构）

AlexNet表明可以使用卷积神经网络训练计算机视觉模型。
ZFNet、VGG表明更大的网络效果更好。
GoogLeNet是最早关注使用1x1瓶颈卷积和全局平均池化代替全连接层的网络之一。
ResNet向我们展示了如何训练极深的网络：
- 仅受限于GPU和内存！
- 随着网络变得更大，递减的回报逐渐显现
ResNet之后：卷积神经网络超过了人类度量标准，注意力转向了高效网络：
- 大量针对移动设备的小型网络：MobileNet、ShuffleNet
神经结构搜索现在可以自动化网络架构设计。