【ML】梯度下降/牛顿法/拟牛顿法/DFP/BFGS

最新推荐文章于 2020-09-06 18:32:01 发布

minuxAE

最新推荐文章于 2020-09-06 18:32:01 发布

阅读量373

点赞数

分类专栏： # 机器学习 # 运筹学与最优化算法 # 数值算法文章标签：拟牛顿法牛顿法梯度下降法 BFGS DFP

本文链接：https://blog.csdn.net/qq_18822147/article/details/108052585

版权

运筹学与最优化算法同时被 3 个专栏收录

97 篇文章 16 订阅

订阅专栏

机器学习

34 篇文章 3 订阅

订阅专栏

数值算法

2 篇文章 0 订阅

订阅专栏

梯度下降法

设 $f (x)$ 在 $\mathbb{R}^n$ 上具有一阶连续偏导数，求解无约束优化问题为
$\min\limits_{x\in\mathbb{R}^n}f(x)$
选取合适的初值 $x^{(0)}$ ，在负梯度方向上迭代更新 $x$ 的值.
将 $f (x)$ 在第 $k$ 次迭代 $x^{(k)}$ 附近Taylor展开
$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})$
其中 $g_k=\nabla f(x^{(k)})$ .
第 $k + 1$ 次迭代值为
$x^{(k+1)}\leftarrow x^{(k)}+\lambda_kp_k$
其中 $p_k$ 表示搜索方向，取函数下降最快的负梯度方向 $p_k=-\nabla f(x^{(k)})$ ， $\lambda_k$ 是步长，由一维线性搜索确定，满足方程
$f(x^{(k)}+\lambda_kp_k)=\min_{\lambda\geq 0} f(x^{(k)}+\lambda p_k)$
当满足收敛条件
$\lVert f(x^{(k+1)})-f(x^{(k)})\rVert<\varepsilon$
或者
$\lVert x^{(k+1)}-x^{(k)}\rVert<\varepsilon$
停止迭代
当目标函数为凸函数时，梯度下降可以求出全局最优解.

牛顿法

牛顿法也是求解无约束问题的常用方法，收敛速度较快，但是每一步需要求解目标函数的Hessian矩阵的逆，算法时间复杂度较高.
设 $f (x)$ 具有二阶连续偏导数，第 $k$ 次迭代值为 $x^{(k)}$ ，可将 $f (x)$ 在 $x^{(k)}$ 附近二阶Tylor展开
$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)})$
其中 $H(x^{(k)})$ 是 $f (x)$ 的Hessian矩阵
$H(x)=\bigg[\frac{\partial^2f}{\partial x_i \partial x_j}\bigg]_{n\times n}$
根据极小值必要条件
$\nabla f(x)=0$
每次从点 $x^{(k)}$ 开始，设
$\nabla f(x^{(k+1)})=0$
对Taylor二阶展开两端同时对 $x$ 求导得到
$\nabla f(x)=\nabla f(x^{(k+1)})+g_k+H_k(x^{(k+1)}-x^{(k)})=0\\ \Rightarrow g_k+H_k(x^{(k+1)}-x^{(k)})=0\tag{1}$
可以解出
$x^{(k+1)}=x^{(k)}-H_k^{-1}g_k$
令 $p_k=-H_k^{-1}g_k$
得到
$x^{(k+1)}=x^{(k)}+p_k$

拟牛顿法

拟牛顿法通过正定矩阵近似Hessian矩阵的逆或者Hessian矩阵，加快了算法计算速度. 在牛顿法中，计算 $H_k^{-1}$ 的时间复杂度较高，考虑使用一个 $n$ 阶矩阵 $G_k$ 去近似 $H_k^{-1}$ .
由 $(1)$ 式可得
$g_{k+1}-g_k=H_k(x^{(k+1)}-x^{(k)})$
令 $y_k=g_{k+1}-g_k， \delta_k=x^{(k+1)}-x^{(k)}$
可以得到拟牛顿条件
$y_k=H_k\delta_k$
或者
$H_k^{-1}y_k=\delta_k$
当 $H_k$ 为正定时，可以保证 $p_k=-H_k^{-1}g_k$ 是下降方向.
由
$x=x^{(k)}+\lambda p_k=x^{(k)}-\lambda H_k^{-1}g_k$
$f (x)$ 在 $x^{(k)}$ 的二阶Taylor展开可以表示为
$f(x)=f(x^{(k)})-\lambda g_k^TH_k^{-1}g_k$
其中 $\lambda$ 是一个充分小的正数，所以 $p_k$ 是下降方向.
令正定阵 $G_{k+1}$ 近似 $H_k^{-1}$ ，即 $G_k$ 满足拟牛顿条件
$G_{k+1}y_k=\delta_k$
每次迭代可以更新矩阵 $G_k$
$G_{k+1}=G_k+\Delta G_k$

DFP

DFP算法设置 $G_{k+1}$ 为如下结构
$G_{k+1}=G_k+P_k+Q_k$
其中 $P_k$ 和 $Q_k$ 为待定矩阵，即
$G_{k+1}y_k=G_ky_k+P_ky_k+Q_ky_k$
为了满足拟牛顿条件
$G_{k+1}y_k=\delta_k$
令
$\left\{ \begin{aligned} &P_ky_k=\delta_k\Leftrightarrow P_k=\frac{\delta_k\delta_k^T}{\delta_k^Ty_k}\\ &Q_ky_k=-G_ky_k\Leftrightarrow Q_k=-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k} \end{aligned} \right.$
可以得到迭代公式
$G_{k+1}=G_k+\frac{\delta_k\delta_k^T}{\delta_k^Ty_k}-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}$

BFGS

考虑使用矩阵 $B_k$ 逼近Hessian矩阵 $H$ ，根据拟牛顿条件
$B_{k+1}\delta_k=y_k$
可以得到一组迭代公式
$B_{k+1}=B_k+P_k+Q_k\\ B_{k+1}\delta_k=B_k\delta_k+P_K\delta_k+Q_k\delta_k$
令
$\left\{ \begin{aligned} &P_k\delta_k=y_k\Leftrightarrow P_k=\frac{y_ky_k^T}{y_k^T\delta_k}\\ &Q_k\delta_k=-B_k\delta_k\Leftrightarrow Q_k=-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k} \end{aligned} \right.$
得到迭代公式
$B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k}\tag{2}$

Broyden类算法

根据 $G_k$ 和 $B_k$ 之间的关系， $G_k=B_k^{-1}，G_{k+1}=B_{k+1}^{-1}$ . 对 $(2)$ 使用Sherman-Morrison公式可以得到

假设 $A$ 是 $n$ 阶可逆矩阵， $u$ 和 $v$ 是 $n$ 维向量，且 $A+uv^T$ 也是可逆矩阵，则有
$(A+uv^T)^{-1}=A^{-1}-\frac{A^{-1}uv^TA^{-1}}{1+v^TA^{-1}u}$

$G_{k+1}=(I-\frac{\delta_ky_k^T}{\delta_k^Ty_k})G_k(I-\frac{\delta_ky_k^T}{\delta_k^Ty_k})^T+\frac{\delta_k\delta_k^T}{\delta_k^Ty_k}$
可以得到一类拟牛顿法
$G_{k+1}=\alpha G^{DFP}+(1-\alpha)G^{BFGS}， 0\leq\alpha\leq 1$