常用优化算法

最新推荐文章于 2024-09-07 14:33:36 发布

rexyang97

最新推荐文章于 2024-09-07 14:33:36 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/rexyang97/article/details/119322004

版权

机器学习同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

优化算法

1 篇文章 0 订阅

订阅专栏

当我们使用机器学习的时候，最开始都是初始化一组参数，然后不断优化迭代，得到最终的结果。所以优化算法也是机器学习中很重要的一个组成部分。

我们之前提到过的梯度下降法，牛顿法这些便是很经典的优化方法。

SGD

首先是stochastic Gradient Descent，随机梯度下降，简称SGD。每次选择一个mini-batch，而不是全部样本，使用梯度下降来更新模型参数。SGD最大的缺点是下降速度慢，而且可能会在沟壑的两边持续震荡，停留在一个局部最优点。

框架

基本上所有的优化算法都有一个固定的框架

首先我们定义待优化的参数为w ，目标函数为 f(w)，初始的学习率为α。

而后，开始进行迭代优化。在每一轮（epoch）t：

1. 计算目标函数关于当前参数的梯度：

2. 根据历史梯度计算一阶动量和二阶动量：

3.计算当前时刻的下降梯度：

4.根据下降梯度进行更新：

一般来说，一阶动量m就是对于梯度进行操作，使他加上之前梯度的特征等等。二阶动量就是根据之前的梯度对于学习率进行一个自适应的变化。

我们拿着这个框架，来先对照一下sgd。sgd本身没有动量的概念，所以m直接等于梯度

SGDM

SGDM即为SGD with momentum，它加入了动量机制，1986年提出。

在SGD基础上引入了一阶动量：

一阶动量是各个时刻梯度方向的指数移动平均值，约等于最近 1/(1-β1) 个时刻的梯度向量和的平均值。

由此可见t迭代的动量，其实是前t-1迭代的梯度的加权和。β为衰减权重，越远的迭代权重越小。从而我们可以发现，SGDM相比于SGD的差别就在于，参数更新时，不仅仅减去了当前迭代的梯度，还减去了前t-1迭代的梯度的加权和。由此可见，SGDM中，当前迭代的梯度，和之前迭代的累积梯度，都会影响参数更新。

t 时刻的下降方向，不仅由当前点的梯度方向决定，而且由此前累积的下降方向决定。β1的经验值为0.9，这就意味着下降方向主要是此前累积的下降方向，并略微偏向当前时刻的下降方向。想象高速公路上汽车转弯，在高速向前的同时略微偏向，急转弯可是要出事的。

NAG

NAG为Nesterov Accelerated Gradient，

是在SGD、SGD-M的基础上的进一步改进，改进点在于步骤1。我们知道在时刻t的主要下降方向是由累积动量决定的，自己的梯度方向说了也不算，那与其看当前梯度方向，不如先看看如果跟着累积动量走了一步，那个时候再怎么走。因此，NAG在步骤1，不计算当前位置的梯度方向，而是计算如果按照累积动量走了一步，那个时候的下降方向：