深度学习 loss下降后上升在下降_深度学习的一些技巧 - hejunlin

最新推荐文章于 2024-06-16 08:00:00 发布

weixin_39575737

最新推荐文章于 2024-06-16 08:00:00 发布

阅读量1.1w

点赞数 2

文章标签：深度学习 loss下降后上升在下降深度学习模型在训练集上很好而在测试集表现得不好而拟合次数并不多深度神经网络训练过程中为什么验证集上波动很大

本文探讨深度学习模型训练中loss的波动问题，包括ReLU、Maxout等激活函数，自适应学习率（如RMSProp、Momentum、Adam），Early Stopping，正则化和Dropout等优化方法。通过这些策略，可以改善模型在训练集和测试集上的性能，防止过拟合，提高模型泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　如上图，深度学习有3个基本的步骤：

1) 定义函数，即选择建立神经网络

2) 建立一个标准，判断第一步得到的函数或者网络好不好，相当于损失函数，误差越小，则该函数或网络越好

3) 选择误差最小的那个函数或网络

　　将我们之前选择的模型或网络用在训练集上，如果误差大，则说明模型不好，需要重新选择或者训练模型；如果该模型在训练集上误差小，那么就在测试集上计算误差，如果测试集上误差也很小，则说明这个模型很好；如果在测试集上误差比较大，则说明模型在训练集上过拟合了，需要重新训练或者选择模型。

有时候，模型在测试集上误差大，并不一定时过拟合造成的。如下图，理论上说，神经网络层数越深，效果应该会更好，至少在训练集上误差会随着层数的增加误差减少(因为参数更多了，造成过拟合的话，那么训练集上误差就减少)，但是实验效果却不是。56层的网络在训练集和测试集的误差都要比20层的误差大，因此56层神经网络模型并没有过拟合，而是56层的网络在训练的时候本身就没有训练好，得到了一个比较差的模型。

因此，该如何得到一个更好的模型呢？如下图所示，如果网络在训练集上误差就很大，那么可以选择新的激活函数或者自适应学习率方法来调整；如果网络在训练集上效果比较好，在测试集上效果比较差，则可以尝试使用提早结束训练、正则化和dropout等方法调整模型。

ReLU

新的激活函数可以选择ReLU，数学表达式为f(x)=max(0,x)，ReLU有如下几个有点：

1) 相比于sigmoid等激活函数，计算速度快，训练时收敛比较快

2) 与人体神经元效果比较相像

3) 解决了sigmoid激活函数梯度消失的情况

　　ReLU也有几种变形体，均是对ReLU的改进，有Leaky ReLU、Parametric ReLU和Exponential Linear Unit(ELU)等。

Maxout

Maxout简单原理如下图，Maxout是一个可以学习的激活函数，Maxout主要工作方式就是选择每一组中最大的那个数作为输出值。如下图中，以两个元素为一组，5和7，-1和1，选择每组中最大的那个值，如5与7比较，选择7。

其实ReLU是Maxout的一种特例。

Maxout网络的激活函数可以是任意的分段线性凸函数，分段的数目取决于每组有多少个元素。

自适应学习率(Adaptive Learning Rate)

RMSProp

　　如下图，绿色箭头和红色箭头都是同一个方向(表示w1分量的梯度方向)，很容易可以看出，绿色箭头的地方斜率比较大，因此，learning rate最好设小一点；而红色箭头的地方斜率比较小，因此，learning rate最好设大一点。

RMSProp算法迭代公式如下：

Momentum

loss随着参数w的变化情况如下图所示，我们要找出w，使得loss最小。从下图中可以看出，loss曲线中，有好几个地方斜率几乎都等于0，如果采用梯度下降法，那么在斜率为0的地方，训练可能就会停止，只得到一个局部最优解。因此，这种情况下，是比较难找到网络的最优解参数。

　　在物理世界里，一个小球从斜坡上滚下来，虽然小球到了坡度接近0(即曲线斜率接近0)的地方，由于惯性的存在，小球还是会继续向前滚。

　　因此，根据上面的现象，神经网络在训练的时候引进Momentum(动量)的概念。如下图所示，训练的时候，每次参数的迭代，是当前位置的斜率与当前位置拥有的Momentum的叠加，因此，训练的时候，会比较容易的走出那些斜率为0的局部最优点，当然，要是局部最优点比较“深”，该方法可能也走不出局部最优点。