机器学习各优化算法的简单总结

最新推荐文章于 2024-03-27 22:54:01 发布

AndrewHR

最新推荐文章于 2024-03-27 22:54:01 发布

阅读量2k

点赞数 1

分类专栏：关于机器学习的其他文章标签：优化算法

本文链接：https://blog.csdn.net/gangyin5071/article/details/81810358

版权

本文总结了机器学习中常见的优化算法，包括梯度下降的三种变体：SGD、Momentum和Nestrov Momentum，以及自适应方法Adagrad、RMSprop、Adadelta和Adam。这些算法各有优缺点，如SGD简单但可能陷入局部最优，而Adam结合了动量和自适应学习率，稳定性好。此外，还介绍了牛顿法和拟牛顿法，尽管它们的收敛速度快，但计算复杂度较高。

摘要由CSDN通过智能技术生成

- 1 梯度下降
  - 1.1 SGD
  - 1.2 Momentum
  - 1.3 Nestrov Momentum
- 2 自适应方法
  - 2.1 Adagrad
  - 2.2 RMSprop
  - 2.3 Adadelta
  - 2.4 Adam
- 3 牛顿法与拟牛顿法
  - 3.1 牛顿法
  - 3.2 拟牛顿法
    - 算法介绍

1 梯度下降

1.1 SGD

算法介绍

SGD（Stochasitic Gradient Descent）很简单，就是沿着梯度的反方向更新参数，优化目标函数。优化公式如下：
$d_i = g(\theta_{i-1})$
$\theta_i = \theta_{i-1} - \lambda d_i$
其中 $d_i$ 为当前位置的梯度，也就是损失函数关于参数的一阶导数

优点

操作简单，计算量小，在损失函数是凸函数的情况下能够保证收敛到一个较好的全局最优解

缺点

$\lambda$ 是个定值（在最原始的版本），它的选取直接决定了解的好坏，过小会导致收敛太慢，过大会导致震荡而无法收敛到最优解。
对于非凸问题，只能收敛到局部最优，并且没有任何摆脱局部最优的能力（一旦梯度为0就不会再有任何变化）

对于非凸的优化问题，我们可以将其转化为对偶问题，对偶函数一定是凹函数，但是这样求出来的解并不等价于原函数的解，只是原函数的一个确下界