卷积神经网络学习笔记

白鹿贞松

已于 2023-03-19 17:18:24 修改

阅读量198

点赞数

分类专栏：神经网络文章标签：神经网络

于 2023-02-22 09:15:04 首次发布

本文链接：https://blog.csdn.net/m0_46314779/article/details/129155180

版权

神经网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

寒假只看了一位UP主的视频
链接

CNN

结构
经典CNN模型
- LeNet-5
AlexNet
ResNet
- resnet18
Seq2Seq模型
Transformer

结构

CNN结构：卷积层、激活函数、池化层（下采样层）、全连接层、输出层等。
借鉴一位博主一文精简介绍CNN基本结构
经卷积后矩阵大小计算公式：N=（W-F+2P）/S+1
W：输入图像大小
F：指Fliter大小或卷积核大小Kernel_Size
S(stride)：卷积步长，也就是每次卷积核（滑动窗口）移动的步长
P(padding)：Padding填充
卷积深度：卷积核个数
池化层：池化层只改变特征矩阵大小，不改变特征矩阵深度(通道数)。一般poolsize(池化核大小)和stride(池化步长)相同，因为选用不重叠的池化。

经典CNN模型

LeNet-5

在这里插入图片描述

LeNet-5不包含输入层一共有7层
输入层：输入是一张32*32黑白图片，意味着输入通道数1（若是彩色图片则输入通道数为3）

C1层(卷积层)：采用6个5×5的卷积核对输入进行卷积，得到6个大小为28×28 不同的输出特征图 W=32，F=5，S=1 $28 = （ 32 - 5 ） /1 + 1$ 。神经元个数：6×28×28
S2层(池化层)：池化核(池化窗口)大小2×2，步长2，输入28，输出14（输出=输入/步长）神经元个数6×14×14
C3层(卷积层)：用16个5×5的卷积核进行卷积，W=14，F=5，S=1，16个特征图大小均为 $10 = 14 - 5 + 1$ 。(这一层16个卷积核中只有10个和前面的6层相连接。也就是说，这16个卷积核并不是扫描前一层所有的6个通道。)
S4层(池化层)：池化核2×2，步长2，输入特征图大小10，输出特征图大小5。 5=10/2。神经元个数16×5×5
C5层(卷积层)：用120个16×5×5的卷积核组进行卷积，W=5 F=5 S=120个特征图大小均为
$1 \times 1 \times (5 - 5 + 1) = 1$ 。神经元个数为120（这里实际上是全连接，但是原文还是称之为了卷积层）
F6层(全连接层)：有84个节点，该层的训练参数和连接数都( 120 + 1 ) × 84 = 10164
F7层(输出层)：输出层，输出单元是10个，因为数字识别是0-9
C3、C5和C6层好复杂，整不明白
参考LeNet模型详解以及代码实现
若使用整个样本进行求解，损失梯度指向全局最优方向

优化器：实际应用中不可能一次将所有算力载入内存，是分批次训练的。若使用分批次样本进行求解，损失梯度指向当前批次最优方向，优化器是使网络更快收敛。
在这里插入图片描述
关于学习率、梯度下降、优化器的概念看这个博客
链接: 深度学习中常见概念（收敛、优化器、学习率等）
PyTorch中在反向传播前为什么要手动将梯度清零？

AlexNet

dropout：防止过拟合，在训练过程中，按照一定的概率随机将部分神经网络单元从网络中丢弃，由于随机丢弃，每一个mini-batch就在训练不同的网络，防止过拟合也增强了泛化能力

ResNet

BN：将训练数据和测试数据归一化，可以增强网络的泛化能力，同时提高网络的训练速度。
深度学习网络随着网络加深，训练越困难，收敛也越来越慢，很多方法解决这个问题，比如ReLU激活函数，比如残差神经网络，BN本质上也是从不同角度来解决这个问题的。
BN也实际上是在做feature scaling，将输入数据分布变换到0均值，单位方差的正态分布，神经网络能够较快收敛

resnet18

ResNet18网络的具体构成
https://blog.csdn.net/benzhujie1245com/article/details/117173090

Seq2Seq模型

Seq2Seq模型是输出的长度不确定时采用的模型，这种情况一般是在机器翻译的任务中出现，将一句中文翻译成英文，那么这句英文的长度有可能会比中文短，也有可能会比中文长，所以输出的长度就不确定了。
Seq2Seq其实就是Encoder-Decoder结构的网络，它的输入是一个序列，输出也是一个序列。在Encoder中，将序列转换成一个固定长度的向量，然后通过Decoder将该向量转换成我们想要的序列输出出来
Encoder是一个RNN，也可以是LSTM、GRU等，接收的是每一个单词的词向量，和上一个时间点的隐藏状态。输出的是这个时间点的隐藏状态。其中激活函数可以是sigmoid、tanh、Relu、softmax等
Decoder是个RNN，也可以是LSTM、GRU等，将encoder得到的语义向量作为初始状态输入到Decoder的RNN中，得到输出序列。可以看到上一时刻的输出会作为当前时刻的输入，而且其中语义向量只作为初始状态参与运算，后面的运算都与语义向量无关
在这里插入图片描述