网络优化技巧-CSDN博客

本文链接：https://blog.csdn.net/code_bro/article/details/127197957

第三章、网络优化

3.1 输入端优化1：数据增强&归一化

数据增强

数据增强是和迁移学习一样，解决数据不足的手段

数据增强的优点：

模型性能得到提升
增加训练样本的多样性，避免过拟合

数据增强的方式：

翻转：水平翻转、垂直翻转
旋转：一般旋转90°、180°
裁剪：随机裁剪原图像中的一部分，不要裁的太小
增加亮度
增加噪声：高斯噪声
随机缩放+随机裁剪+随机分布

注意：

数据增强的多样性：注意多种增强方式搭配
合适的增强方式：注意样本的合理性，不是所有的方式都合理，比如人脸一般不会颠倒

输入数据归一化

输入数据归一化的意义：训练时加快网络收敛

归一化的方式：

Min-Max标准化：提取样本数据的最大值和最小值，将所有x的进行基于Max和Min的变换（缺点是，新数据的加入会导致最值变化，需要重新标准化）
均值标准化：
- 先将所有样本数据减去均值，整体数据的分布会移动到以0为中心的位置。
- 再将数据除以方差（平方和均值），让数据的方差变为1，缩小数据的离散程度到[-1,1]。

训练测试方式标准化

注意：

训练集如果使用了归一化处理，那么测试集和实际应用时也应采用归一化处理
模型应用时使用归一化的均值和方差参数，可以直接使用训练集提供的均值和方差，而不需要使用场景中采集的数据。

3.2 输入端优化2：梯度下降参数随机初始化

Mini-Batch梯度下降

使用场景：实际训练中，一个样本进行一次前向后向传播是不切实际的，因为数据量是非常大的，多次的计算没有硬件可以承担，而且就算可以承担也会让训练的时间大大增加。所以切合实际的操作方法Mini-Batch应运而生。

Mini-Batch含义：将训练集打包成一个一个的小子集进行处理，如果有8000个数据，设置每1000个为一个子集，那么就有8个子集，这里的batch_size=1000， batches=8。

常见术语：

Mini-Batch梯度下降：将整个训练集拆分为多个子集进行梯度下降训练
Batch梯度下降：用整个训练集当作一个子集进行训练，这种情况很少见
随机梯度下降：将一个样本当成一个子集进行训练，即有多少样本即多少子集
epoch：不管你用什么方法进行训练，只要对整个训练集进行了一次梯度下降，所有的子集都训练完一次，就是一次epoch
iteration：一个epoch由多个iteration组成，一个iteration即一个子集进行了梯度下降

为什么选择Mini-Batch梯度下降

可以说，Mini-Batch梯度下降是在随机梯度下降和Batch梯度下降之中的一个中和方法，即不会像Batch梯度下降一样数量级过大耗时过长，也不会像随机梯度下降一样因为无法剔除样本中的噪声影响而难以收敛。

优点还有及时看到训练效果，便于及时调整训练策略。

Mini-Batch如何选择合适数值

即Batch_size和Batches如何选取

具体策略：

一般Batch_size通常选用2的次方，32、64、…，子集设置在32~512之间，因为计算机对2的次方效率比较高
不一定非要使用Mini-Batch，如果训练集不多，那么可以直接用Batch梯度下降
看每个人电脑硬件的能力，可以训练时不断尝试进行测试，看看可以承受多少个样本，比如一开始Batch_size是128，如果GPU承受不住，就改小一些，看看硬件到底能承受的参数。

参数随机初始化

网络参数不能直接初始化为0

除非是单节点神经网络，否则参数必须要随机初始化

但是b可以为0，w必须随机初始化

一般都是使用python中的numpy函数，x = numpy.random.randn((2,2))*0.01，初始化两行两列的矩阵，后面乘0.01缩小是因为，在使用逻辑回归公式的时候，z会因w和b的减小而减小，这时一般使用sigmoid激活函数的时候，较小的（即接近0的）z在激活函数上的体现就是更接近于0.5，即接近导数更大的区间线段，那么在梯度下降的时候，速率起步就会较大。

3.3 中间层优化1：激活函数

为什么需要激活函数

如果没有激活函数，那么所有第二层以上的神经元的输入都不再是a，而是上一层的逻辑回归函数z，那么如果将最后一层的z展开，就会发现其形式最终就是关于所有层的w和b的一个逻辑回归公式，最后还是一个wx+b，即这个模型最后只能处理最简单的线性问题，就失去了其深层的意义了。

因此我们需要激活函数，激活函数是非线性函数，逻辑回归函数是线性函数，非线性函数包括在线性函数外面，最后神经元的输出就是一个非线性函数，而且神经网络层数越多，非线性程度越高，可以表示的函数就更复杂。

常见的几种激活函数

sigmoid激活函数：输出范围[0,1]，平均值0.5（适合用于最后的输出层，用以处理概率问题）

tanh函数：输出范围[-1,1]，平均值0

这两个函数在输入绝对值过大时，斜率很小，即收敛速率明显下降

因此这里还有一个改善该问题的函数

relu函数：（输入值大于0，斜率很高，学习很快，小于0则没有斜率，无法学习

Leaky_Relu函数：（当输入值小于0时，也有较小的斜率

两者特点：都是分段线性函数，属于非线性函数，实际应用中，输入一般都大于0，因此relu函数使用的更多一点

Mish函数：（不太懂，好像是让0分界更加平滑，不过还是relu函数使用的更多

如何选择激活函数：

不同项目具体分析：少批量训练，查看瘦脸效果
常见情况：
- relu用的最多，Leaky_Relu少一些
- 二分类概率任务输出层可采用sigmoid函数
- 当然也可以尝试Mish函数

3.4 中间层优化2：网络归一化&学习率衰减

为什么要做网络归一化

对输入数据归一化的优点：

提高网络泛化能力，即普适性强
使得网络的训练速度更快

如何做网络归一化

中间层数据归一化：输入层是对x进行归一化，而中间层是对激活前的z进行归一化，统一之后再激活。换言之，输入层归一化是对逻辑函数中的x进行，而中间层则是对逻辑函数z进行。对象是一整层的z，对该层的z进行标准化处理，减均值，除方差等。

和输入层归一化不同的还有，在除方差的过程中，需要在分母根式中添加一个微小的正数扰动一下，避免分母为0。

除了减均值和除方差，还有第三个步骤，因为我们不想让z分布的区域固定，因此需要对第二阶段获得的z**继续操作，进行一个z*** = αz** + β的操作，a用于控制方差，b用于控制平均值，这样就可以让z处于我们想要的区域，不断地调整优化。到这里，因为引入了α和β这两个参数，因此逻辑回归公式的b和β可以进行合并表示为β，最后网络需要训练的参数即为w、α和β这三个。

学习率衰减

学习率过大过好都不好，最佳设置方法是动态调整，即收敛的过程中不断衰减。

常用衰减方法：

自动衰减：
$r=\frac{1}{1+decayrate×epochnum}×r_0 \\ \\r_0:初始学习率 \\decayrate:衰减率 \\epochnum:网络迭代次数$
手动调节：主要针对数据集较小的数据集，几个小时或几天的训练时间，即看损失函数来回震荡，那么可以停下来，调整一下学习率再接着训练。或者根据经验，在网络训练的不同epoch中设置不同的学习率。