CS231n笔记-CNN网络结构

iwill323

已于 2022-10-19 13:59:22 修改

阅读量684

点赞数

分类专栏： CS231n笔记文章标签： cnn 深度学习计算机视觉

于 2022-08-20 18:25:33 首次发布

本文链接：https://blog.csdn.net/iwill323/article/details/126442080

版权

本文详细探讨了卷积神经网络（CNN）的结构，包括全连接层的问题、卷积层的优势、卷积核的作用、超参数设置、1×1卷积层的应用、池化层的功能、Batch Normalization的原理和计算方式，以及各种激活函数的优缺点。重点讨论了Batch Normalization如何加速训练并提高模型稳定性，并提出了在训练中使用激活函数的建议。

摘要由CSDN通过智能技术生成

所有图片来自PPT官网Index of /slides/2022

代码：Batch Normalization和Dropout_iwill323的博客-CSDN博客

为什么使用Batch Normalization

计算方式

全连接层的batch norm

卷积层的batch norm——spatial batchnorm

全连接层的Layer Normalization

Spatial Group Normalization

全连接层存在的问题

在全连接层中，相邻层的神经元全部连接在一起，输出的数量可以任意决定。

全连接层存在什么问题呢？那就是数据的形状被“忽视”了。比如，输入数据是图像时，图像通常是高、长、通道方向上的 3 维形状。但是，向全连接层输入时，需要将 3 维数据拉平为 1 维数据。
图像是 3 维形状，这个形状中应该含有重要的空间信息。比如，空间上邻近的像素为相似的值、RBG 的各个通道之间分别有密切的关联性、相距较远的像素之间没有什么关联等，3 维形状中可能隐藏有值得提取的本质模式。但是，因为全连接层会忽视形状，将全部的输入数据作为相同的神经元（同一维度的神经元）处理，所以无法利用与形状相关的信息。
而卷积层可以保持形状不变。当输入数据是图像时，卷积层会以 3 维数据的形式接收输入数据，并同样以 3 维数据的形式输出至下一层。因此，在 CNN 中，可以（有可能）正确理解图像等具有形状的数据。

卷积层

卷积层使用卷积核与数据中与之相同大小（包括长、宽、深）的一组数据做内积，将其映射为一个数据（神经元neuron）。这块区域就是这个neuron的感受野receptive field。这与全连接层是显然不同的，在全连接层中，每个neuron和输入都是连接的。CNN 中，有时将卷积层的输入输出数据称为特征图（feature map）。其中，卷积层的输入数据称为输入特征图（input feature map），输出数据称为输出特征图（output feature map）

卷积神经网络中卷积核的高度和宽度通常为奇数，例如1、3、5或7。选择奇数的好处是，保持空间维度的同时，我们可以在顶部和底部填充相同数量的行，在左侧和右侧填充相同数量的列。

此外，使用奇数的核大小和填充大小也提供了书写上的便利。对于任何二维张量X，当满足：