深度学习调参经验分享

Ambition_LAO

已于 2024-07-24 16:55:08 修改

阅读量456

点赞数 13

文章标签：深度学习 python 神经网络自然语言处理

于 2024-07-24 16:53:51 首次发布

本文链接：https://blog.csdn.net/GDHBFTGGG/article/details/140666698

版权

在深度学习中，调参指的是调整算法模型中的参数，以使模型达到更好的性能。这些参数通常分为两类：一类是模型参数，另一类是超参数。

良好的调参策略可以极大提高模型的准确率和泛化能力。调参通常是基于经验、试错以及使用一些系统化的方法进行，如网格搜索、随机搜索、贝叶斯优化等。

1. 模型参数：指的是模型内部的可学习参数，这些参数是在学习过程中通过数据自动学习调整的，如神经网络中的权重和偏置。

2. 超参数：指的是模型训练前需要设置的参数，这些参数通常需要手动设定，它们直接影响到模型的训练过程和最终性能。常见的超参数包括：

1）学习率：决定模型参数更新的速度。

2）迭代次数：即训练过程中数据将被重复使用的次数。

3）批量大小（Batch size）：每进行一次参数更新时使用的数据样本数量。

4）网络结构相关参数：如层数、每层的单元数或过滤器数。

5）正则化参数：比如L1、L2正则化系数，用来防止过拟合。

6）激活函数：如ReLU、 sigmoid 、tanh等。

7）优化器：比如SGD、 Adam 、RMSprop等。

8） 学习率衰减策略 : 学习率衰减是指在训练过程中逐渐减少学习率的方法，有固定衰减、分段衰减、余弦退火等多种策略。

9） 早停策略（Early Stopping） : 早停是防止过拟合的策略之一，它通过监控验证集的性能，在性能不再提升时提前停止训练。
10) 梯度裁剪（Gradient Clipping） : 用于防止梯度爆炸的问题，尤其在RNN中常见。超参数通常是梯度的最大范数或值。

11) 特征选择的超参数 : 特征选择和预处理步骤中可能涉及到的参数，例如PCA中的主成分数量等。

学习率优化算法

Adadelta:
- 特点: Adadelta是Adagrad的改进版，它解决了Adagrad学习率单调递减的问题。Adadelta通过限制累积梯度的窗口大小来保持学习率的稳定。
- 机制: 它使用一个衰减因子来累积过去的梯度平方和，类似于RMSprop，但不同的是，Adadelta使用的是梯度的指数移动平均数。此外，它还引入了一个参数更新量的均方根来代替学习率的直接更新。
- 适用场景: Adadelta通常用于需要长时间训练的大型神经网络。
Nadam（Nesterov-accelerated Adaptive Moment Estimation）:
- 特点: Nadam是Adam和Nesterov动量的结合。它在Adam的基础上引入了Nesterov加速梯度的方法，使得优化过程更高效。
- 机制: 在Nesterov动量中，梯度不仅考虑了当前位置，还考虑了移动一步后的位置，这有助于更快地收敛。Nadam结合了Nesterov动量和Adam的自适应学习率特点。
- 适用场景: Nadam常用于深度学习中需要快速收敛的任务。
AdaMax:
- 特点: AdaMax是Adam的一个变种，使用的是无穷范数（max norm）来替代Adam中的二范数。
- 机制: 它保持了Adam算法的大部分特性，但在某些情况下，AdaMax的收敛性和稳定性表现得更好。
- 适用场景: 当使用Adam出现问题时，可以尝试AdaMax来改进训练效果。
AMSGrad:
- 特点: AMSGrad也是Adam的一个变种，旨在解决Adam在某些非凸优化问题中可能存在的收敛性问题。
- 机制: 它引入了一个校正项，通过取最大历史二次梯度的方式，确保学习率不会过于快速下降。
- 适用场景: AMSGrad在处理复杂非凸优化问题时表现更好。
SGD with Momentum:
- 特点: 虽然SGD（随机梯度下降）本身不是自适应学习率优化算法，但通过加入动量（Momentum），可以使其具有一定的自适应特性。
- 机制: 动量方法通过在更新方向上积累动量，使得梯度下降在陡峭的方向上加速，而在平缓的方向上减速，从而提高收敛速度。
- 适用场景: 适用于大多数机器学习和深度学习任务，是一种经典且有效的优化方法。
L-BFGS（Limited-memory Broyden–Fletcher–Goldfarb–Shanno Algorithm）:
- 特点: L-BFGS是一种拟牛顿优化方法，适用于大型数据集的优化问题。
- 机制: 它通过在内存中保存有限的历史梯度信息，来近似估计二阶导数，从而更有效地找到最优解。
- 适用场景: L-BFGS常用于需要精确优化的大规模机器学习任务。