深度学习基本概念

最新推荐文章于 2024-08-01 00:35:36 发布

冰激凌啊

最新推荐文章于 2024-08-01 00:35:36 发布

阅读量8.9k

点赞数 9

文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/gyxx1998/article/details/119985766

版权

深度学习理论专栏收录该内容

8 篇文章 10 订阅

订阅专栏

深度学习是一种基于神经网络的机器学习。
神经网络模型计算中会涉及大量的向量、矩阵和张量计算。

01 向量、矩阵和张量及其运算

向量计算：

转置
加减
点积Dot Product（即内积Inner Product）：对应分量相乘并求和

矩阵计算：

单位阵
转置
求轨
……

张量（tensor），向量可看做一维张量。矩阵可看做二维张量。

例如：
黑白图片是二维矩阵（图片的高h，宽w）
彩色图片是三维张量（图片高度h，宽度w，图片的通道数目c）( $h\times w \times c$ )（彩色图片有rgb三个通道 c=3）

在进行深度学习的过程中，常用到四维张量，增加的一个维数为迷你批次（mni-batch）的大小，可以认为是每次输入深度神经网络图片的数目。

根据张量的四个维度排列方式可以分为NCHW和NHWC两种：

NCHW：迷你批次大小x通道数目x图片高度x图片宽度
NHWC：迷你批次大小x图片高度x图片宽度x通道数目

不同的深度框架可能会采用不同的排列方式，需要根据具体使用的框架来决定具体的维数排列应该是什么

深度学习网络构造中，使用各种线性变换，主要分为两类：

一类是张量线性变换：如n维向量变m维等，主要是层中的计算（如卷积层）
另一类是张量的逐点变换（point-wise）：主要用于激活函数

02 输入数据的表示方式

以图片为例

对于每个像素点，有1个、3个或4个通道，分别对应于灰度、RGB、RGBA图像。
每个通道的取值范围为0~255之间的整数。

由于图片大小（高度、宽度）各不相同，而网络训练过程中会批量处理图片，所以常通过最近邻差值、双线性差值等方法把图片调整为统一的目标大小

调整好同一大小后，再将所有像素的所有通道除以255，转换为0~1的浮点数

为增加图片多样性，常在调整图片大小前会对图片进行一些特殊处理，如：

从图片中随机裁剪出一定的区域（random cropping），用这部分图片来调整图片的大小，进而转换为浮点数张量
对图片进行色彩的轻微变换（jittering）（主要是把rgb变为hsv，即色相hue、饱和度saturation和明度brightness value，然后再这三个值上做5%~10%的随机证件，再变换回rgb），最后进行缩放并转换成张量

上述操作的目的是扩增数据集，增加神经网络的泛化能力

转换为张量后，还需要归一化才能输入神经网络。

归一化让数据分布规整，有效增加神经网络训练的数值稳定性，有利于优化损失函数，从而提高训练结果的准确率。

03 线性变换和激活函数

3.1 全连接线性函数

下一层神经网络的每个值都和前一层神经网络的每个值相关联，这种神经网络连接方式为全连接层（Fully Connected Layer，FC Layer），对应的线性变换为全连接线性变换。

对于全连接层，可以用矩阵来描述连接方式，即如果对一个n大小的输入向量，将其变化为m大小的向量，需要一个 $\times n$ 大小的矩阵来描述这种线性变换，我们称这种线性变换的矩阵为连接的权重（weight）。

对于神经网络来说，权重是一个经过一定随机初始化（比如权重的每个分量值都初始化为标准的正态分布），权重在神经网络的训练过程中会逐渐向着让模型更好地符合数据分布的方向变化，这个过程称为模型的优化（optimization）。

除权重外，我们一般还会给线性变换之后的输出统一加一个可训练的参数，这个参数是标量，即为一个实数，我们称这个参数为偏置（bias）

在这里插入图片描述

3.2 卷积线性变换

全连接的线性变换由于前一层和后一层所有的神经元之间都有一对一的连接关系，也称为稠密连接层 (Dense Layer)。

在实际的应用过程中，这种神经元之间关系的描述可能有许多冗余，对于神经网络模型的训练并不是很友好。
为此，人们发明了一系列稀疏（Sparse）的连接方式来描述前后两层神经元之间的连接关系，其中最有名的一个就是卷积层（Convolution Layer, Conv Layer），对应的神经网络称为卷积神经网络(Convolution Neural Networks, CNN)。

在这里插入图片描述

如图所示，左边是输入的一张图片(某一通道)，右边是一个3x3的卷积核(Convolution Kernel，或称为Fiter)。

卷积核的每个分量都是可训练的实数，也称为权重。

在运算过程中，

需要从输入图片中取出和卷积核大小相同的块区域(左边虚线方框的区域)，
然后把区域里面的数和卷积核的权重按照一一对应的方式相乘，
并把所有的乘积求和，作为最后的输出。

通过变化虚线框的位置(按照箭头方向移动，得到对应行列的值，其中移动的步长Stride是一个可以调节的参数)，可以得到新的输出，这个过程即为卷积的过程。

由于卷积核的权重只和输入的局部区域相连接，因此，这里称卷积的连接方式为稀疏连接。

在实际的运算中，卷积运算一般是转换为矩阵运算来进行的。

首先是把图片按照卷积的顺序转换为矩阵，对应的函数称之为Im2Col (Image to Columns)。
其中，列的大小和卷积核的大小一致，比如3x3的卷积核对应的矩阵的列就是9，行的方向则和卷积的方向一致。
然后把卷积核也转换为矩阵，
其中行的大小和卷积核大小一致，列的大小和不同的卷积核的数目一致
(上图所示的是一个卷积核的卷积过程，实践中可以有多个卷积核，对应不同通道的输出)。
然后对着两个矩阵做乘法计算，对应调用的函数称之为GEMM (GEneral Matrix Muliplication)。