基于导数的优化方法

最新推荐文章于 2020-11-22 03:51:00 发布

xmu_rq

最新推荐文章于 2020-11-22 03:51:00 发布

阅读量375

点赞数

分类专栏：学习记录文章标签：算法机器学习

本文链接：https://blog.csdn.net/qq_36033058/article/details/107370873

版权

学习记录专栏收录该内容

8 篇文章 0 订阅

订阅专栏

使用导数的优化方法

下面介绍的优化方法都是针对无约束优化问题的。

考虑无约束问题：
$min\quad f(\bold{x}),\bold{x}\in \bold{R}^n$

最速下降法

假设 $f(\bold{x})$ 具有一阶连续偏导数。

迭代公式：
$\bold{x}^{(k+1)}=\bold{x}^{(k)}+\lambda_k\bold{d}^{(k)}$

$\bold{d}^{(k)}=-\nabla f(\bold{x}^{(k)})$

$\bold{d}^{(k)}$ 为搜索方向，即 $\bold{x}^{(k)}$ 处的最速下降方向， $\lambda_k$ 为从 $\bold{x}^{(k)}$ 出发沿方向 $\bold{d}^{(k)}$ 进行一维搜索的步长，即 $\lambda_k$ 满足：
$f(\bold{x}^{(k)}+\lambda_k\bold{d}^{(k)}) = \min_{\lambda\ge0}f(\bold{x}^{(k)}+\lambda \bold{d}^{(k)})$
最速下降法在一定条件下是收敛的。

最速下降法存在锯齿现象。容易证明，最速下降法极小化目标函数时，相邻两个搜索方向是正交的，因此最速下降法迭代产生的序列 ${x^{(k)}\}$ 所循路径是“之”字形的，当 $\bold{x}^{(k)}$ 接近极小点 $\bar{\bold{x}}$ 时，每次迭代移动的步长很小，这样就呈现出锯齿现象，因此影响了收敛速率。因此，最速下降方向反映了目标函数的一种局部性质。从局部看，最速下降方向的确是函数值下降最快的方向，选择这样的方向进行搜索是有利的。但从全局看，由于锯齿现象的影响，即使向着极小点移近不太大的距离，也要经历不小的弯路，因此使收敛速率大为减慢。最速下降法并不是收敛最快的方法，相反，从全局来看，他的收敛是比较慢的。因此，最速下降法一般适用于计算过程的前期迭代或作为间插步骤。

牛顿法

假设 $f(\bold{x})$ 是二次可微实函数，设 $\bold{x}^{(k)}$ 是 $f(\bold{x})$ 极小点的一个估计，我们把 $f(\bold{x})$ 在 $\bold{x}^{(k)}$ 处展成Taylor级数，并取二阶近似：
$f(\bold{x})\approx \phi(\bold{x})=f(\bold{x}^{(k)})+\nabla f(\bold{x}^{(k)})^T(\bold{x}-\bold{x}^{(k)})+\frac{1}{2}(\bold{x}-\bold{x}^{(k)})^T\nabla^2f(\bold{x}^{(k)})(\bold{x}-\bold{x}^{(k)})$
令
$\nabla\phi(\bold{x}) = 0$
有：
$\nabla f(\bold{x}^{(k)}) + \nabla^2f(\bold{x}^{(k)})(\bold{x}-\bold{x}^{(k)})=0$
得到迭代公式：
$\bold{x}^{(k+1)}=\bold{x}^{(k)}-\nabla^2f(\bold{x}^{(k)})^{-1}\nabla f(\bold{x}^{(k)})$
其中 $\nabla^2f(\bold{x}^{(k)})^{-1}$ 是Hesse矩阵 $\nabla^2f(\bold{x}^{(k)})$ 的逆矩阵（如果存在的话）

值得注意，当初始点远离极小点时，牛顿法可能不收敛，因为牛顿方向
$\bold{d} =-\nabla^2f(\bold{x}^{(k)})^{-1}\nabla f(\bold{x}^{(k)})$
不一定是下降方向，经迭代，目标函数值可能上升。此外，即使目标函数值下降，得到的点也不一定是沿牛顿方向的最好点或极小点。

阻尼牛顿法

该方法在标准的牛顿法的迭代公式上增加了沿牛顿方向的一维搜索，具体的迭代公式为：
$\bold{x}^{(k+1)} = \bold{x}^{(k)}+\lambda_k\bold{d}^{(k)}$
其中 $\bold{d}^{(k)}$ 为牛顿方向， $\lambda_k$ 为一维搜索得到的步长。

拟牛顿法

牛顿法的优点是收敛速度快。但是，运用牛顿法需要计算二阶偏导数以及Hesse矩阵的逆矩阵，而且目标函数的Hesse矩阵可能非正定。因此提出了拟牛顿法。基本思想是用不包含二阶导数的矩阵近似牛顿法中的Hesse矩阵的逆矩阵。具体的推导这里先不记录了，后续在补充。

拟牛顿法主要有两个典型的算法：DFP算法和BFGS公式。

参考

最优化理论与算法（第2版）

xmu_rq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于导数的优化方法

使用导数的优化方法下面介绍的优化方法都是针对无约束优化问题的。考虑无约束问题：minf(x),x∈Rnmin\quad f(\bold{x}),\bold{x}\in \bold{R}^nminf(x),x∈Rn最速下降法假设f(x)f(\bold{x})f(x)具有一阶连续偏导数。迭代公式：x(k+1)=x(k)+λkd(k)\bold{x}^{(k+1)}=\bold{x}^{(k)}+\lambda_k\bold{d}^{(k)}x(k+1)=x(k)+λkd(k)d(k)=
复制链接

扫一扫