机器学习/深度学习入门：优化器原理与比较

最新推荐文章于 2024-09-05 17:04:49 发布

M_Z_G_Y

最新推荐文章于 2024-09-05 17:04:49 发布

阅读量1.1k

点赞数

分类专栏：机器学习/深度学习

机器学习/深度学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

梯度下降法(Gradient Descent)

梯度下降法是最基本的一类优化器，目前主要分为三种梯度下降法：标准梯度下降法(GD, Gradient Descent)，随机梯度下降法(SGD, Stochastic Gradient Descent)及批量梯度下降法(BGD, Batch Gradient Descent)。

1. 标准梯度下降法(GD)

假设要学习训练的模型参数为W，代价函数为J(W)，则代价函数关于模型参数的偏导数即相关梯度为ΔJ(W)，学习率为ηt，则使用梯度下降法更新参数为：

从表达式来看，模型参数的更新调整，与代价函数关于模型参数的梯度有关，即沿着梯度的方向不断减小模型参数，从而最小化代价函数。
基本策略可以理解为”在有限视距内寻找最快路径下山“，因此每走一步，参考当前位置最陡的方向(即梯度)进而迈出下一步。可以形象的表示为：

二维参数的梯度下降描述

评价：标准梯度下降法主要有两个缺点

训练速度慢：每走一步都要要计算调整下一步的方向，下山的速度变慢。在应用于大型数据集中，每输入一个样本都要更新一次参数，且每次迭代都要遍历所有的样本。会使得训练过程及其缓慢，需要花费很长时间才能得到收敛解。
容易陷入局部最优解：由于是在有限视距内寻找下山的反向。当陷入平坦的洼地，会误以为到达了山地的最低点，从而不会继续往下走。所谓的局部最优解就是鞍点。落入鞍点，梯度为0，使得模型参数不在继续更新。

2. 批量梯度下降法(BGD)

假设批量训练样本总数为n，每次输入和输出的样本分别为X(i),Y(i)，模型参数为W，代价函数为J(W)，每输入一个样本i代价函数关于W的梯度为ΔJi(Wt,X(i),Y(i))，学习率为ηt，则使用批量梯度下降法更新参数表达式为：

从表达式来看，模型参数的调整更新与全部输入样本的代价函数的和（即批量/全局误差）有关。即每次权值调整发生在批量样本输入之后，而不是每输入一个样本就更新一次模型参数。这样就会大大加快训练速度。
基本策略可以理解为，在下山之前掌握了附近的地势情况，选择总体平均梯度最小的方向下山。

评价：

批量梯度下降法比标准梯度下降法训练时间短，且每次下降的方向都很正确。

3. 随机梯度下降法(SGD)

评价：

优点：

虽然SGD需要走很多步的样子，但是对梯度的要求很低（计算梯度快）。而对于引入噪声，大量的理论和实践工作证明，只要噪声不是特别大，SGD都能很好地收敛。
应用大型数据集时，训练速度很快。比如每次从百万数据样本中，取几百个数据点，算一个SGD梯度，更新一下模型参数。相比于标准梯度下降法的遍历全部样本，每输入一个样本更新一次参数，要快得多。

缺点：

SGD在随机选择梯度的同时会引入噪声，使得权值更新的方向不一定正确。
此外，SGD也没能单独克服局部最优解的问题。

动量优化法

动量优化方法是在梯度下降法的基础上进行的改变，具有加速梯度下降的作用。一般有标准动量优化方法Momentum、NAG（Nesterov accelerated gradient）动量优化方法。

NAG在Tensorflow中与Momentum合并在同一函数tf.train.MomentumOptimizer中，可以通过参数配置启用。

1. Momentum

2. NAG

自适应学习率优化算法

自适应学习率优化算法针对于机器学习模型的学习率，传统的优化算法要么将学习率设置为常数要么根据训练次数调节学习率。极大忽视了学习率其他变化的可能性。然而，学习率对模型的性能有着显著的影响，因此需要采取一些策略来想办法更新学习率，从而提高训练速度。
目前的自适应学习率优化算法主要有：AdaGrad算法，RMSProp算法，Adam算法以及AdaDelta算法。

1.AdaGrad算法

2.RMSProp算法

3. AdaDelta算法

4. Adam算法

优点

实现简单，计算高效，对内存需求少
参数的更新不受梯度的伸缩变换影响
超参数具有很好的解释性，且通常无需调整或仅需很少的微调
更新的步长能够被限制在大致的范围内（初始学习率）
能自然地实现步长退火过程（自动调整学习率）
很适合应用于大规模的数据及参数的场景
适用于不稳定目标函数
适用于梯度稀疏或梯度存在很大噪声的问题

缺点：

虽然Adam算法目前成为主流的优化算法，不过在很多领域里（如计算机视觉的对象识别、NLP中的机器翻译）的最佳成果仍然是使用带动量（Momentum）的SGD来获取到的。Wilson 等人的论文结果显示，在对象识别、字符级别建模、语法成分分析等方面，自适应学习率方法（包括AdaGrad、AdaDelta、RMSProp、Adam等）通常比Momentum算法效果更差。

其中有论文指出Adam在某些情况下可能存在不收敛，错过全局最优解的情况。

各种优化器的比较

终于结束的漫长的理论分析，下面对各种优化器做一些有趣的比较。

1. 可视化比较

(1) 示例一

这里写图片描述
上图描述了在一个曲面上，6种优化器的表现，从中可以大致看出：

① 下降速度：

三个自适应学习优化器Adagrad、RMSProp与AdaDelta的下降速度明显比SGD要快，其中，Adagrad和RMSProp齐头并进，要比AdaDelta要快。
两个动量优化器Momentum和NAG由于刚开始走了岔路，初期下降的慢；随着慢慢调整，下降速度越来越快，其中NAG到后期甚至超过了领先的Adagrad和RMSProp。

② 下降轨迹：

SGD和三个自适应优化器轨迹大致相同。两个动量优化器初期走了“岔路”，后期也调整了过来。

(2) 示例二

这里写图片描述
上图在一个存在鞍点的曲面，比较6中优化器的性能表现，从图中大致可以看出：

三个自适应学习率优化器没有进入鞍点，其中，AdaDelta下降速度最快，Adagrad和RMSprop则齐头并进。
两个动量优化器Momentum和NAG以及SGD都顺势进入了鞍点。但两个动量优化器在鞍点抖动了一会，就逃离了鞍点并迅速地下降，后来居上超过了Adagrad和RMSProp。
很遗憾，SGD进入了鞍点，却始终停留在了鞍点，没有再继续下降。

(3) 示例三

这里写图片描述
上图比较了6种优化器收敛到目标点（五角星）的运行过程，从图中可以大致看出：

① 在运行速度方面

两个动量优化器Momentum和NAG的速度最快，其次是三个自适应学习率优化器AdaGrad、AdaDelta以及RMSProp，最慢的则是SGD。

② 在收敛轨迹方面

两个动量优化器虽然运行速度很快，但是初中期走了很长的”岔路”。
三个自适应优化器中，Adagrad初期走了岔路，但后来迅速地调整了过来，但相比其他两个走的路最长；AdaDelta和RMSprop的运行轨迹差不多，但在快接近目标的时候，RMSProp会发生很明显的抖动。
SGD相比于其他优化器，走的路径是最短的，路子也比较正。

讲解比较详细的文章

https://www.sohu.com/a/226332315_633698

https://blog.csdn.net/weixin_40170902/article/details/80092628