CNN笔记|用到再继续补充

最新推荐文章于 2023-07-26 16:37:51 发布

Lovemyse1f

最新推荐文章于 2023-07-26 16:37:51 发布

阅读量261

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/Lovemyse1f/article/details/107904289

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

摘自：https://mp.weixin.qq.com/s/d8L5-bKxfQcW8B1lEj80NQ

卷积核是如何进行卷积操作的呢？

卷积核其实就是拿着这个矩阵在图片的矩阵上一点点的平移，就像扫地一样。每扫到一处地方就可以进行卷积的运算，计算方法很简单，如图所示，左上角的卷积核扫到绿色框的位置，则卷积核矩阵的数字就和扫到的位置的矩阵的数字一一对应相乘然后相加，最后取一个均值，该值就是卷积核提取的特征。卷积核提取的所有的特征组成了一个长和宽变小的矩阵，这个矩阵又称为feature map。
在这里插入图片描述
如果不断的进行卷积操作，那么图片的矩阵会逐步地长宽减少，厚度增加。（为什么呢？）
可以看到卷积操作通过卷积核是可以分别提取到图片的特征的，但是如何提前知道卷积核呢？像上文的例子，很容易可以找到3个卷积核，但是假如是人脸识别这样成千上万个特征的图片，就没办法提前知道什么是合适的卷积核。其实也没必要知道，因为选择什么样的卷积核，完全可以通过训练不断优化。初始时只需要随机设置一些卷积核，通过训练，模型其实自己可以学习到合适的卷积核，这也是卷积神经网络模型强大的地方。

池化

池化其实就是对每个feature map进一步提炼的过程。

Normalization

Normalization就是将矩阵中负数的值转成0,也就是使用一个称之为ReLu的激活函数进行负数变为0的操作。ReLu函数本质上就是max（0，x）。这一步其实也是为了方便运算。

最后将得得到的特征图排成一列连接到全连接层。
在这里插入图片描述

卷积神经网络基础：LeNet5

LeNet网络结构，总共有7层网络（不含输入层），2个卷积层、2个池化层、3个全连接层。
在这里插入图片描述
LeNet分为卷积层块和全连接层块两个部分。下面我们分别介绍这两个模块。卷积层块里的基本单位是卷积层后接最大池化层：卷积层用来识别图像里的空间模式，如线条和物体局部，之后的最大池化层则用来降低卷积层对位置的敏感性。卷积层块由两个这样的基本单位重复堆叠构成。在卷积层块中，每个卷积层都使用55的窗口，并在输出上使用sigmoid激活函数。第一个卷积层输出通道数为6，第二个卷积层输出通道数则增加到16。这是因为第二个卷积层比第一个卷积层的输入的高和宽要小，所以增加输出通道使两个卷积层的参数尺寸类似（1.增加的通道数是如何获知、是人为设计还是自动？）。卷积层块的两个最大池化层的窗口形状均为22，且步幅为2。由于池化窗口与步幅形状相同，池化窗口在输入上每次滑动所覆盖的区域互不重叠。

卷积层块的输出形状为(批量大小, 通道, 高, 宽)。当卷积层块的输出传入全连接层块时（2.卷积层的说输出是和全连接的神经元个数是如何对应的呢？），全连接层块会将小批量中每个样本变平（flatten）。也就是说，全连接层的输入形状将变成二维，其中第一维是小批量中的样本，第二维是每个样本变平后的向量表示，且向量长度为通道、高和宽的乘积。全连接层块含3个全连接层。它们的输出个数分别是120、84和10，其中10为输出的类别个数。

在卷积层块中输入的高和宽在逐层减小。卷积层由于使用高和宽均为5的卷积核，从而将高和宽分别减小4，而池化层则将高和宽减半，但通道数则从1增加到16。全连接层则逐层减少输出个数，直到变成图像的类别数10。
在这里插入图片描述
通过多次卷积和池化，CNN的最后一层将输入的图像像素映射为具体的输出。如在分类任务中会转换为不同类别的概率输出，然后计算真实标签与CNN模型的预测结果的差异，并通过反向传播更新每层的参数，并在更新完成后再次前向传播，如此反复直到训练完成。
在这里插入图片描述

**疑问

转自：https://www.zhihu.com/question/38098038
卷积后生成的特征图个数，即通道个数与卷积窗口大小的关系？
每一层卷积有多少channel数，以及一共有多少层卷积，这些暂时没有理论支撑，一般都是靠感觉去设置几组候选值，然后通过实验挑选出其中的最佳值。这也是现在深度卷积神经网络虽然效果拔群，但是一直为人诟病的原因之一。

在达到相同感受野的情况下，卷积核越小，所需要的参数和计算量越小。具体来说。卷积核大小必须大于1才有提升感受野的作用，1排除了。而大小为偶数的卷积核即使对称地加padding也不能保证输入feature map尺寸和输出feature map尺寸不变（画个图算一下就可以发现），2排除了。所以一般都用3作为卷积核大小。为什么尺寸为2的时候会出现输入和输出不一样的情况？（步长为1情况下）
假设n为输入宽度，d为padding个数，m为卷积核宽度，在步长为1的情况下，如果保持输出的宽度仍为n，公式，n+2d-m=n-1，得出m=2d+1，奇数