深度学习流程介绍&&个人理解（暂时完结）

巴依捞爷

已于 2025-04-05 20:04:05 修改

阅读量4.2k

点赞数 49

文章标签：深度学习人工智能 python

于 2024-07-31 00:21:09 首次发布

本文链接：https://blog.csdn.net/w13843571755/article/details/140724992

版权

0.前言

本人假期正在参加ICARCV-2024轮胎检测赛时有幸需要系统了解深度学习，所以本文章会不定期进行修改，以达到真正的通俗易懂，相较于其他教程，本文章更多的是以一种我们普通大学生能看懂的文字去介绍，去体会深度学习到底是怎么实现的。所以理论部分会很少甚至没有。

由于比赛用到了何凯明的MAE以及meta-learn等知识，所以在跟大家说基础的同时可能会带两句

由于深度学习对我而言学起来很有难度，所以更新会慢，再次热切希望各位同志批评指正

注：本人教程基于pytorch进行代码编写，其余的我也没有了解过

Q：深度学习到底是要做些什么/深度学习背后的原理是什么？

A：在我看来，深度学习其实就是将我们待解决的问题归类为数学问题，通过一系列数学运算达到我们要的结果。其中的原理，不同的问题（例如：二分类，多分类等）是有不同的数学原理的，不过总结起来就是一句话：通过回归模型（线性，非线性）计算出最优解。

Q：深度学习如何知道自己身处于最优解的位置？

A：最优解分为全局最优解和局部最优解两类。从简单的讲起，我们首先定义了损失函数（Loss），Loss越大，表明我们当前计算出的理论值和真实值差距过大（欧氏距离过大），也就证明我们当前算的值正确率小，那么如何增大我们的正确率呢？（怎么减小loss呢？）那就需要我们的数学式子进行迭代计算，在迭代的过程中我们的结果距离真实正确的结果是越来越近的。我们先引出梯度的概念，梯度表示损失函数相对于模型参数的变化率。我们对loss进行求导得到loss的梯度，其值越小，表示模型在当前参数下损失函数的变化越小，因此梯度下降过程越慢。梯度为0时，证明我们的模型已经达到最优解。

BUT！在真实解决问题的时候我们还需要注意一个问题——当前虽然梯度为零，是理论上的最优解，不过我们不知道这个最优解是局部最优解（鞍点）还是全局最优解，此时我们就需要引入惯性、改变初始点进行验证了

1.流程概述

看过很多深度学习的教程以及文章，但是我没有见到过系统介绍深度学习大体流程到底是什么，怎么写，所以本流程概述主要来解决这个问题。

建议看本文章的顺序：先粗看第一部分，细看第二部分的2.0基础部分，再回来看第一部分

1.1数据集收集

正常比赛或者做任务的话数据集都已经给到我们了，不过自己做一个项目的话需要收集数据集的，数据集在代码里面文件夹通常名为：“dataset”，在使用现有数据集时请注意大多数情况下需要我们签写一个使用协议（内容基本就是禁止商用，只可以学术使用什么的）。

如果自己去制作数据集的话需要保证如下几点：

1.dataset中所有图片的大小、长宽、通道数（彩色是3，黑白是1）要保持一致

2.dataset文件夹的构成要一致并且满足接下来任务的要求

eg：1. n way- m shot ：常常用在分类问题上，数据集构成是一个训练集中有n类物品，每类物品有m张图片供你训练，不过这么表达是有问题的，按照正常理解5 way 1shot 的一个训练集里应该有5张图片，但是也会出现10张的情况，比如说轮胎印与轮胎，所以说一个训练集中（train）还可能会包含query文件夹和train文件夹，下图为本次比赛的文件夹构成。

2.训练集图像，训练集标签，测试集图像，测试集标签（参考MINIST数据集，具体参考[ 数据集 ] MINIST 数据集介绍-CSDN博客）

1.2数据集预处理

我这里所说的预处理其实是数据增强的意思，数据集过少的情况下我们可以通过如下方式进行数据增强

镜像和翻转：进行水平或垂直翻转，创建镜像图像，增加数据多样性。

旋转和缩放：进行旋转、缩放或裁剪，以增加对不同尺度和角度的变化的模型鲁棒性。

加噪声处理：向数据中添加随机噪声，如高斯噪声、随机剪裁、色彩变换等，使模型更能应对现实世界中的噪声和变化。

数据插值：通过线性或非线性插值方法来填充数据，特别适用于时间序列数据和缺失值处理。（没用过）

生成对抗网络：使用生成对抗网络生成与原始数据相似但略有差异的数据，以扩展数据集。（没用过）

样本合成：基于现有数据样本的属性，创造新的合成数据样本。（不推荐）

1.3确定待解决问题并确定合适的模型

深度学习网络模型通常由以下几个核心组成部分构成：

1. 输入层（Input Layer）：

这是神经网络的第一层，接受原始数据，如图像、文本或数值。

2. 隐藏层（Hidden Layers）：

包括多层非线性处理单元，如卷积层（Convolutional Layers，用于图像）、循环层（Recurrent Layers，用于序列数据）或全连接层（Fully Connected Layers），每一层对前一层的特征进行变换和提取。（具体见第二部分的网络模型介绍）

3. 激活函数（Activation Functions）：

作用：是一种添加到人工神经网络中的函数，旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型，激活函数最终决定了要发射给下一个神经元的内容。（人话：将前面加权求和过的输入值变成输出值）

例如ReLU、sigmoid或tanh等，它们为每个神经元引入非线性，使模型能够学习复杂的关系。

4. 池化层（Pooling Layers）：

对于图像处理，这可以降低数据维度并保留关键信息，常用于减小计算量。

5. 权重矩阵和偏置（Weights and Biases）：

网络学习的参数，通过反向传播算法调整优化模型性能。

6. 输出层（Output Layer）：

取决于任务类型，比如对于分类任务可能是 softmax 层，对于回归任务则是线性层。

7. 损失函数（Loss Function）：

评估模型预测结果与真实值之间的差距，如交叉熵损失，MSE等。

8. 优化器（Optimizer）：

如梯度下降法（Gradient Descent）或其他更先进的算法，用于最小化损失函数。

9. 正则化（Regularization）：

防止过拟合的技术，如L1、L2正则化或Dropout。

根据实际问题的不同可以参考下表选择相应的激活函数和损失函数

1.4 根据上述流程编写网络模型

这是我在编写文章过程中发现的关于pytorch的教程，各位有兴趣可以看看PyTorch 基础 · 深度学习入门之 PyTorch (gitbooks.io)

具体的代码到底怎么写可以去哔哩哔哩搜一下相关的教程，可以先从复现已经有的模型开始，在编写过程中可以切实感受一个模型需要写些什么，为什么这么写。

2. 部分神经网络模型介绍

2.0 神经网络基础知识

2.0.1 正向/反向传播

正向传播就是将信息从输入层-->隐藏层-->输出层，按照编写的网络正方向传播

反向传播是指输出层将误差（loss）通过隐藏层传递给输入层，而这里的误差是指output的结果与input中x对应的真实结果的差距，我们可以看到下图x不止一个，所以误差也不止一个，但是！我们在分析函数loss，也就是编写误差函数的大多数时候是将所有误差值进行分析，而不是单独拿出来一个误差进行分析。

误差的具体分析方法见第四部分

2.0.2损失函数Loss/Error与梯度

Loss作用:衡量模型好坏的决定性因素，不同的任务需要用到不同的损失函数

梯度定义：表示损失函数相对于模型参数的变化率

误差的具体分析方法见第四部分

Loss与梯度的关系：

1. 梯度下降：梯度下降是一种优化算法，用于逐步调整模型参数，以最小化损失函数。在每次迭代中，梯度下降根据损失函数的梯度来更新模型参数。梯度越小，表示模型在当前参数下损失函数的变化越小，因此梯度下降过程越慢。梯度为零时，表示模型已达到最优解。

2. 梯度上升：与梯度下降相反，梯度上升算法是为了最大化损失函数。在梯度上升过程中，算法会根据损失函数的梯度来更新模型参数，使梯度方向与损失函数的增大方向一致。

3. 梯度弥散和梯度爆炸：在深度学习过程中，梯度弥散和梯度爆炸是两个常见问题。梯度弥散是由于梯度在反向传播过程中逐渐减小，导致权重更新幅度较小，从而使优化过程变得非常缓慢。梯度爆炸则是由于梯度过大，导致权重更新幅度过大，可能使模型无法收敛。为解决这些问题，可以采用一些技巧，如使用梯度裁剪、调整学习率、使用残差网络（ResNet）等。

4. 损失函数的曲线：损失函数的曲线可以反映模型在训练过程中的性能。通常，随着训练轮数的增加，损失函数值会逐渐减小。在优化过程中，梯度的大小和方向决定了模型参数的更新，从而影响损失函数的曲线。通过观察损失函数曲线，可以初步判断模型的训练效果和过拟合情况。

总之，深度学习模型训练时，loss（损失函数）与梯度之间存在密切关系。梯度下降和梯度上升算法分别用于最小化和最大化损失函数，而梯度消失和梯度爆炸是需要关注和解决的问题。通过调整学习率、使用梯度裁剪等方法，可以优化模型训练过程，提高模型性能。

【深度学习】loss与梯度与交叉熵的关系_损失函数梯度增大-CSDN博客

2.0.3 感知机

概念&意义：

感知机是由美国学者Frank Rosenblatt在1957年提出来的。是分类方法之一。因为感知机也是作为神经网络（深度学习）的起源的算法。是神经网络的基础。在了解神经网络和深度学习之前学习感知机的构造是非常有必要的。

感知机对应于输入空间中将实例划分为正负两类的分离超平面，属于判别模型，输入为实例的特征向量，取+1 ， -1；

感知机分为原始形式与对偶

上图来自：机器学习——感知机_机器学习——感知机欲游山河-CSDN博客

如果我们光看定义会感觉非常难懂，接下来我会以图的形式呈现感知机是如何工作的

单层感知机：

首先我们看上述定义，我们会发现括号里有x——输入 w——权重 b——偏置

所以我们猜测当输入之有一个x的时候首先对其加权，在处理完x后再加偏置b，当输入为多个的时候我们设x为（x1+x2+...），此时括号内变为（w（x1+x2+...）+b）我们继续猜测，为了完成分类任务，每个输入的x所加权重肯定是不一样的，不然加他干嘛？所以式子变成（ΣWiXi+b）将不同的输入和权重相乘求和结束后，我们还需要一个激活函数将其激活，所以我们在Σ后加一个激活函数sigmoid（σ（x）)。至此，恭喜你创造了单层感知机。如下图所示。

这个单层到底是哪个层呢——从权重开始到激活函数σ是一层，我理解的就是看Σ和σ有几个，有几个就几层

2.0.4 BP神经网络（BackPropagation——反向传播网络）

BP神经网络是一种多层的前馈神经网络，其主要的特点是：信号是前向传播的，而误差是反向传播的。

首先我们来看上图绿色文字泡部分：大体分为Input（输入层）、隐藏层（Hidden）、Output（输出层）三部分，几乎下属所有模型基本都是以此为基本构成进行编写的

BP神经网络的过程主要分为两个阶段，第一阶段是信号的前向传播，从输入层经过隐含层，最后到达输出层；第二阶段是误差的反向传播，从输出层到隐含层，最后到输入层，依次调节隐含层到输出层的权重和偏置，输入层到隐含层的权重和偏置。

单个神经元结构

图像出处：深度学习（3）之经典神经网络模型整理：神经网络、CNN、RNN、LSTM-CSDN博客

2.1 CNN模型

2.1.1 LeNet5 模型

诞生于1994年，是最早也是最经典的神经网络模型之一，当时没有GPU帮助训练，所以为了提高训练速度，Yann LeCun采用以下方法提高训练速度

convoluiton：卷积 subsampling：二次抽样 fullconnection：全连接 gaussianconnections：高斯连接

我们仔细观察会发现，input图像原大小是32*32，卷积后变成28*28，C1经过二次抽样变为14*14，此时图像是越来越小的，以此减小计算量，我们知道图片跟语言不一样，图片所含的信息量很小很杂，与语言这种信息量高度凝练对比如果对图片每一处都进行处理的话会浪费时间，并且训练效果也是一坨。从S4到C5我们发现图像被打平了，这是深度学习的一种处理方法，将二维或高维的temsor（张量）打平再进行计算。具体原因我也不清楚

Lenet5特征能够总结为如下几点：
（1）卷积神经网络使用三个层作为一个系列：卷积、池化、非线性
（2）使用卷积提取空间特征
（3）使用映射到空间均值下采样
（4）激活函数：tanh 或 sigmoid函数
（5）多层神经网络（MLP）作为最后的分类器
（6）层与层之间的稀疏链接矩阵避免大的计算成本

2.1.2 AlexNet 模型（现在没多大意义）

上图分了两层是因为当时用了两块GPU（由于当时机能限制，现在如果一块GPU不能解决那只能说明你这个模型有点问题）

主要技术点：
（1）使用RELU作为CNN的激活函数，解决了sigmoid在网络较深时的梯度弥散问题。这个我们以后会进行详细说明为什么RELU不会出现这个问题
（2）训练时使用了Dropout随机忽略一部分神经元，以避免模型过拟合。
（3）在CNN中使用重叠的最大池化，步长小于池化核，这样输出之间会有重叠和覆盖，提升了特征的丰富性。此前CNN普遍使用平均池化，AlexNet全部使用最大池化，避免平均池化的模糊性效果。
（4）提出了LRN层，对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈比较小的神经元，增强了模型的泛化能力。
（5）使用CUDA加速深度卷积网络的训练，用两块GTX 580
（6）使用数据增强

2.1.3 VGG 模型（现在不会去用）

2.1.4 GoogleNet 模型（现在不会去用）

2.1.5 ResNet 模型（力荐）

CNN面临的一个问题就是，随着层数的增加，CNN的效果会遇到瓶颈，甚至会不增反降。这往往是梯度爆炸或者梯度消失引起的。

ResNet就是为了解决这个问题而提出的，因而帮助我们训练更深的网络。它引入了一个 residual block（残差块）：

这个残差块把某一层的激活值，直接一把抓到了后面的某一层之前，这个过程称之为“skip connection（跳跃连接）”。这个做法，相当于把前面的信息提取出来，加入到当前的计算中，论文作者认为，这样的做法，可以使神经网络更容易优化。事实上确实是这样。

通过这种residual block，他们成功地搭建了一个拥有 152层的CNN

深度学习（3）之经典神经网络模型整理：神经网络、CNN、RNN、LSTM-CSDN博客

2.2 RNN模型（循环神经网络）

前言——RNN的特点：

前面我们学到了BP神经网络和CNN模型，我们会发现上述两个模型描述输入和输出的关系时都是一个个独立出来的，前后的输入输出之间是没有关系的，这种模型在进行自然语言处理（NLP）时会出现致命问题，由于前后都是独立的，所以当我要根据某人说的上一句话预测下一句话时CNN就显得不够用了；而RNN模型便解决了这个问题，它能更好的处理序列的信息

2.2.1 RNN结构

图片来源：深度学习（3）之经典神经网络模型整理：神经网络、CNN、RNN、LSTM-CSDN博客

先看上述图片左半部分，RNN总的分为输入，隐藏，输出三层（基本对所有RNN都适用）

将左半部分展开，我们会清楚的发现Ot的结果是与Xt-1有关的，也可以说St的值与Xt和St-1有关，用式子表达即为：

以上便是RNN结构，接下来我们看RNN的两种变形

2.2.2 LSTM模型（长短期记忆网络）

首先我们要明确LSTM也属于RNN的一种，他的当前输出也是与之前的输入有关。

与之不同的是，LSTM会有选择性的将对用户有用的词语权重加大，不那么重要的（语气词，代词等）权重减小或者直接抛弃（忘记）。总而言之LSTM就是记住重要的，忘记无关紧要的（由每个cell中的sigmoid函数完成，跟sigmoid函数性质有关，详情看第三部分）

图片来源:如何从RNN起步，一步一步通俗理解LSTM_rnn lstm-CSDN博客

相较于普通的RNN只有一个激活函数tanh，LSTM的单位模块多了很多东西（例如三个sigmoid函数），为了更好理解LSTM，我们将其拆分成忘记门输入门输出门 三部分

0.LSTM重要结构

与RNN一样，LSTM的关键是细胞状态

左面传入的是Ct-1，传出Ct

1.忘记门

忘记门读取ht-1 和当前输入Xt并做sigmoid非线性映射，根据sigmoid性质可以达成遗忘或记住的目的，具体如下： sigmoid输出向量ft（1表示完全保留，0为完全舍弃，向量中所有的值均在0-1之间），最后与细胞状态Ct-1相乘

2.输入门

tanh层创建新的候选向量

2.1更新细胞状态

3.输出门

运行一个sigmoid层来确定细胞状态的哪个部分将输出出去。接着，把细胞状态通过tanh进行处理（得到一个在-1到1之间的值）并将它和sigmoid门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。

如何从RNN起步，一步一步通俗理解LSTM_rnn lstm-CSDN博客

番外：LSTM变体

1.peephole

2.coupled

2.2.3 GRU模型（门控循环单元网络）

3. 部分激活函数介绍

3.0定义&&作用

激活函数（Activation Function）是一种添加到人工神经网络中的函数，旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型，激活函数最终决定了要发射给下一个神经元的内容。其主要作用是对所有的隐藏层和输出层添加一个非线性的操作，使得神经网络的输出更为复杂、表达能力更强。

正如绝大多数神经网络借助某种形式的梯度下降进行优化，激活函数需要是可微分（或者至少是几乎完全可微分的）。

图片来自：常用的激活函数合集（详细版）-CSDN博客

3.1Sigmoid

帮助调节流经网络的值，使之限制在0到1之间

公式：

Sigmoid函数公式：Sigmoid函数的导数：

3.2Softmax

3.3Relu

激活函数（Activation Function）-CSDN博客

3.4Laeky Relu

3.5Tanh：

帮助调节流经网络的值，使之限制在-1到1之间

图片来源：如何从RNN起步，一步一步通俗理解LSTM_rnn lstm-CSDN博客

Tanh函数：Tanh函数导数：

4. 部分损失函数介绍

4.1MSE

4.2MAE

4.3交叉熵（CrossEntropy）

在项目中的注意事项

1.训练集与验证集比例一般为8:2或者7:3

番外：深度学习常见术语

1.数据集（dataset):数据的集合

2.示例(instance)/样本(sample):数据中对于某个数据的所有描述

3.属性(attribute)/特征(feature):反应事件或对象在某方面的表现或性质的事项(eg：大小，形状）

4.属性值(attribute value):对属性的具体描述(eg:大小究竟多大，形状是什么形状）

5.属性空间(attribute space)/样本空间(sample space)/输入空间：属性张成的空间（eg：将图片大小形状颜色作为三个坐标轴，张成一个用来描述图像的空间，每个图形都可以在这个坐标系中找到自己的位置，由于空间中的每个点均对应一个坐标向量，所以我们也将这种示例称一个特征向量(feature vector))

6.维数(dimensionality):令D={x1,x2,...xm}表示D为包含m个示例的数据集，每个示例有d个属性描述，则每个示例xi是d维样本空间X中的一个向量，xi∈X，其中xij表示xi在第j个属性上的取值，d则是样本xi的维数

7.学习(learning)/训练(training):从数据中学得模型的过程，这个过程通过执行某个学习算法完成

8.训练样本(training sample)与训练集(training set):你猜猜是什么

9.假设(hypothesis):学得模型对应了关于数据的某种潜在规律

10.标记(label):关于示例结果的信息（eg:长宽为5，有四个直角——正方形（正方形就是这个示例的标记））

11.样例(example):拥有标记信息的示例

12.标记空间(label space)/输出空间:标记的集合

13.分类(classification)/回归(regression):分类是区分数据种类的（长方形，正方形，三角形），分类还分成二分类与多分类，二分类的两种类别分别可以叫做正类和反类；回归是预测连续值所用到的（植物受病虫害影响程度0.21，0.49...）

14.聚类(clustering):将训练集中的数据分成若干组，每组称为一个“簇(cluster)”每个簇按照某种特点进行集合

15.监督学习(supervised learning)与无监督学习(unsupervised learning):根据训练数据是否拥有标记信息来分类

16.泛化（generalization):学得的模型适用于新样本的能力

17.精度(accuracy)与误差(error):若m个样本中有a个分类错误，则错误率E=a/m，精度=1-E；误差是模型的实际预测输出与样本的真实输出之间的差异。