深度学习笔记之优化算法(三)动量法的简单认识

静静的喝酒

已于 2023-10-10 13:58:44 修改

阅读量632

点赞数 1

分类专栏：深度学习 python 最优化理论与方法文章标签：深度学习条件数与梯度下降法的缺陷动量法

于 2023-10-07 19:57:57 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/133646646

版权

深度学习笔记之优化算法——动量法的简单认识

引言

引言

上一节介绍了随机梯度下降 $(\text{Stochastic Gradient Descent,SGD})$ ，本节将介绍动量法。

回顾：条件数与随机梯度下降的相应缺陷

早在梯度下降法在强凸函数的收敛性分析中介绍了条件数 $(\text{Condition Number})$ 的概念。如果目标函数 $f(\cdot)$ 在某点处的 $\text{Hessian Matrix} \Rightarrow \nabla^2 f(\cdot)$ 存在并且它具备：
这意味着 $\text{Hessian Matrix}$ 必然是正定矩阵。
$\nabla^2 f(\cdot) \succcurlyeq \mathcal I$
那么它的条件数 $\mathcal C$ 可表示为：
$\mathcal C = \frac{\lambda_{max}}{\lambda_{min}}$
其中 $\lambda_{max}$ 与 $\lambda_{min}$ 分别表示 $\nabla^2 f(\cdot)$ 特征值的最大、最小值。如果 $\mathcal C$ 过大，会导致：使用梯度下降法处理 $f(\cdot)$ 的优化问题，当 $\mathcal C \Rightarrow \infty$ 时，那么算法的收敛速度由线性收敛退化至次线性收敛。这种现象也被称作 $\text{Hessain Matrix}$ 的病态条件。

上面仅仅是理论上的描述。在真实环境下，会出现什么样的效果 $?$ 以标准二次型 $x^T \mathcal Q x$ 为例，其中 $\mathcal Q = \begin{pmatrix}0.5 \quad 0 \\ 0 \quad 20 \end{pmatrix},x=(x_1,x_2)^T$ 。使用梯度下降法对该目标函数求解最小值的迭代过程见下图：

由于 $\mathcal Q$ 是对角阵，因而它的特征值分别是 $0.5, 20$ 因而在 $f (x)$ 定义域内的点，其对应 $\text{Hessian Matrix}$ 的条件数也是不低的。
如果从目标函数的角度观察，它会是一个中间狭窄，两端狭长的船形形状。
关于该图代码见文章末尾,下同~