常见优化算法大汇总

最新推荐文章于 2024-05-12 09:00:00 发布

JoeyforJoy

最新推荐文章于 2024-05-12 09:00:00 发布

阅读量5.3k

点赞数 1

文章标签：机器学习动态规划

本文链接：https://blog.csdn.net/qq_42374559/article/details/112270245

版权

Optimizing Note

本文档介绍了一些常用的优化方法，包括线性最小二乘及一些非线性的优化方法，如梯度下降法，牛顿法，高斯牛顿法，列文伯格-马尔夸特法，迭代非线性最小二乘法等。

Optimizing Note
- 1. Linear Optimazation
- 2. NonLinear Optimazation

1. Linear Optimazation

设有一线性系统
$\boldsymbol{y} - \boldsymbol{A}\boldsymbol{x} = \boldsymbol{e} \sim \mathcal{N}(\boldsymbol{0},\boldsymbol{\Sigma})$ 其中 $e$ 表示误差，服从正太分布， $\boldsymbol{\Sigma}$ 为协方差矩阵，表示权重。

构造优化方程，
$\boldsymbol{x}=\argmin \boldsymbol{e}^T\Sigma^{-1}\boldsymbol{e}$ 解得，
$\boldsymbol{x} = (\boldsymbol{A}^T\Sigma^{-1}\boldsymbol{A})^{-1}\boldsymbol{A}^T\Sigma^{-1}\boldsymbol{y}$

2. NonLinear Optimazation

假设有优化问题：
$\min_{x} F(\boldsymbol{x}) = \frac{1}{2}\|f(\boldsymbol{x})\|_2^2$ 其中， $\in \mathbb{R}^{n}$ , $f$ 是任意函数 $f(\boldsymbol{x}):\mathbb{R}^n \mapsto \mathbb{R}$ 。这里系数 $\frac{1}{2}$ 不影响结果。
要求解该问题，只需求找到其极值点，即求解：
$\frac{\mathrm{d}F}{\mathrm{d}\boldsymbol{x}}=0$
在大多数情况下，这个方程的求解起来较为困难，尝用迭代的方式求解。常常可以根据如下的流程求解：

给定初值 $\boldsymbol{x_0}$ ;
对第 $k$ 次迭代，寻找一增量 $\Delta \boldsymbol{x}_k$ , 使得 $\|f(\boldsymbol{x}+\Delta \boldsymbol{x})\|^2_2$ 达到最小值;
若 $\Delta \boldsymbol{x}_k$ 足够小，则停止迭代;
否则，令 $\boldsymbol{x}_{k+1}=\boldsymbol{x}_k+\Delta \boldsymbol{x}$ ,返回第二步

以下是几种不同的寻找 $\Delta{\boldsymbol{x}}$ 的方法。

2.1. Newton Algorithm (梯度法)

对 $F(\boldsymbol{x})$ 进行泰勒展开:
$F(\boldsymbol{x}_k+\Delta{\boldsymbol{x}_k}) \approx F(\boldsymbol{x}_k)+\boldsymbol{J}(\boldsymbol{x}_k)^T\Delta{\boldsymbol{x}_k}+\frac{1}{2}\Delta{\boldsymbol{x}_k}^T \boldsymbol{H}(\boldsymbol{x}_k)\Delta{\boldsymbol{x}_k}$ 其中， $\boldsymbol{J}(\boldsymbol{x})$ 为雅可比(Jacobian)矩阵，是 $F(\boldsymbol{x})$ 关于 $x$ 的一阶导数； $\boldsymbol{H}(\boldsymbol{x})$ 是二阶导数，称为海塞(Hessian)矩阵。
此时，优化问题可写成
$\Delta{\boldsymbol{x}}=\argmin_{\Delta \boldsymbol{x}}(F(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta\boldsymbol{x}+\frac{1}{2}\Delta\boldsymbol{x}^T\boldsymbol{H}(\boldsymbol{x})\Delta\boldsymbol{x})$ 在这个优化问题中， $\boldsymbol{x}$ 是已知量，求解时是对 $\Delta\boldsymbol{x}$ 求导。

2.1.1. 最速下降法（梯度下降法）

若保留一阶项，可让增量取梯度的反方向，可保证函数下降，有,
$\Delta\boldsymbol{x}=-\lambda\boldsymbol{J}(\boldsymbol{x})$ 其中， $\lambda$ 为步长，在机器学习中称为学习率。
这种方法简单，但迭代次数较多。

2.1.2. 牛顿法(Newton Algorithm)

若保留二阶项，则对 $\Delta\boldsymbol{x}$ 求导，有,
$\Delta \boldsymbol{x}=-\boldsymbol{J}\boldsymbol{H}^{-1}$
该方法称为牛顿法。这种方法相对最速下降法迭代次数较少，但矩阵 $\boldsymbol{H}$ 的计算往往伴随着巨大的计算量。

2.2. Gauss-Newton Equation (or Normal Equation)

高斯牛顿法直接对 $f(\boldsymbol{x})$ 进行泰勒展开，得如下优化方程：
$\Delta{\boldsymbol{x}}=\argmin_{\Delta \boldsymbol{x}}\frac{1}{2}\|f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta\boldsymbol{x}\|_2^2$ 其中 $\boldsymbol{J}(\boldsymbol{x})$ 是 $f(\boldsymbol{x})$ 的导数，不是 $F(\boldsymbol{x})$ 的导数。
求上式关于 $\Delta\boldsymbol{x}$ 的导数,令其等于零，则有
$\boldsymbol{J}(\boldsymbol{x})\boldsymbol{J}^T(\boldsymbol{x})\Delta \boldsymbol{x}=-\boldsymbol{J}(x)f(\boldsymbol{x})$ 该方程称高斯牛顿方程(Gauss-Newton Equation) 或 正规方程(Normal Equation)。
求解得，
$\Delta \boldsymbol{x}=-(\boldsymbol{J}\boldsymbol{J}^T)^{-1}\boldsymbol{J}f$ 该方法对 $\boldsymbol{J}\boldsymbol{J}^T$ 有一定的要求，如果 $\boldsymbol{J}\boldsymbol{J}^T$ 为奇异矩阵或者病态矩阵，则可能导致算法不收敛。

2.3. Levenberg-Marquardt Algorithm

列文伯格-马夸尔特法引入了信赖区域(Trust Region) 的概念，构造了如下的优化方程：
$\Delta{\boldsymbol{x}}=\argmin_{\Delta \boldsymbol{x}}\frac{1}{2}\|f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta\boldsymbol{x}\|_2^2 ,\quad s.t.\|\boldsymbol{D}\Delta \boldsymbol{x}\| \leq \mu$ 其中， $\mu$ 为信赖区域的半径， $\boldsymbol{D}$ 为系数矩阵，是一个非负数对角阵。
该方程可用拉格朗日乘数法求解，构造如下拉格朗日函数,
$\mathcal{L}(\Delta\boldsymbol{x},\lambda)=\frac{1}{2}\|f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta\boldsymbol{x}\|_2^2+\frac{\lambda}{2}(\|\boldsymbol{D}\Delta\boldsymbol{x}\|_2^2-\mu)$ 其中， $\lambda$ 为拉格朗日乘子。对上式求导，可得
$\Delta \boldsymbol{x} = -(\boldsymbol{J}\boldsymbol{J}^T+\lambda\boldsymbol{D}^T\boldsymbol{D})^{-1}\boldsymbol{J}f$ 若取 $\boldsymbol{D}=\boldsymbol{I}$ ，则有
$\Delta \boldsymbol{x} = -(\boldsymbol{J}\boldsymbol{J}^T+\lambda\boldsymbol{I})^{-1}\boldsymbol{J}f$ 可以看到，当 $\lambda$ 较大时，列文伯格-马夸尔特法接近一阶梯度下降法，当 $\lambda$ 较小时，列文伯格-马夸尔特法接近高斯牛顿法。

除此之外，列文伯格-马夸尔特法还对迭代流程进行了优化，引入了一个指标 $\rho$ 来衡量局部的近似程度。定义如下，
$\rho = \frac{f(\boldsymbol{x+\Delta x})-f(\boldsymbol{x})}{\boldsymbol{J}(\boldsymbol{x})^T \Delta \boldsymbol{x}}$ 可以看到，分子为函数实际下降的值，分母为近似下降的值， $\rho$ 越接近 1 ，说明近似的越好；若 $\rho$ 太大，则应缩小范围；若 $\rho$ 太小，则应放大范围。列文伯格-马夸尔特法的具体流程如下:

给定初值 $\boldsymbol{x_0}$ ，系数矩阵 $\boldsymbol{D}$ 和信赖区域半径 $\mu$ ;
对第 $k$ 次迭代，寻找满足优化方程的增量 $\Delta \boldsymbol{x}_k$
若 $\Delta \boldsymbol{x}_k$ 足够小，则停止迭代;
否则，计算 $\rho$
若 $\rho > \frac{3}{4}$ , 则设置 $\mu=2\mu$ ，进入步骤 2
若 $\rho < \frac{1}{4}$ , 则设置 $\mu=\frac{1}{2}\mu$ ，进入步骤 2
若 $\rho$ 大小合适，则令 $\boldsymbol{x}_{k+1}=\boldsymbol{x}_k+\Delta \boldsymbol{x}_k$ ,返回步骤 2

一般而言，列文伯格-马夸尔特法要比高斯牛顿法更加稳定，受“病态”问题影响较小。

2.4. Iterative Nonlinear Least Square Method(迭代非线性最小二乘法)

迭代最小二乘法在测绘领域中使用的非常广泛。在测绘中，我们把 $(\boldsymbol{x}+\Delta \boldsymbol{x})$ 看成是参数的真实值，把 $\boldsymbol{x}$ 看成是参数的近似值，则 $\Delta \boldsymbol{x}$ 为真实值与观测值之差，即参数的估计误差。一般情况下，我们无法直接获得想要的参数 $\boldsymbol{x}$ ，而只能观测到参数 $\boldsymbol{x}$ 的函数 $f(\boldsymbol{x})$ ，我们称之为观测值。

容易知道，如果我们参数估计的够准，即 $\Delta x \to 0$ ，则有， $f(\boldsymbol{x}+\Delta \boldsymbol{x}) \to f(\boldsymbol{x})+\boldsymbol{J}(x)^T\Delta\boldsymbol{x}$ ，因此可以构造如下的优化方程:
$\Delta{\boldsymbol{x}}=\argmin_{\Delta \boldsymbol{x}}\frac{1}{2}\|f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta\boldsymbol{x}-f(\boldsymbol{x}+\Delta\boldsymbol{x})\|_2^2$ 求解可得，
$\Delta \boldsymbol{x} = (\boldsymbol{J}^T\boldsymbol{J})^{-1}\boldsymbol{J}^T\boldsymbol{L}$ 其中 $\boldsymbol{L} = f(\boldsymbol{x}+\Delta\boldsymbol{x}) - f(\boldsymbol{x})$