梯度下降法总结

最新推荐文章于 2021-10-06 22:37:37 发布

NXU2023

最新推荐文章于 2021-10-06 22:37:37 发布

阅读量497

点赞数

分类专栏：数学

本文链接：https://blog.csdn.net/weixin_43448905/article/details/105211818

版权

数学专栏收录该内容

3 篇文章 1 订阅

订阅专栏

梯度下降法的基本形式：

一、算法
1、选择initial $x$ ^$(0)$

2、选择梯度下降方向以及下降步长

3、判断停止准则

4、继续更新 $x$ ^$(k)$： $x$ ^{$(k + 1)$} $=$ $x$ ^$(k)$ $-\alpha_kd$ ^(k)

5、返回第2步

注：一般而言，对于一个下降法，主要是对其下降方向以及下降步长的把握。对于梯度gradient，切线方向 $\nabla f(x)$ 是下降最快的方向，证明可参考最优化理论一书。所以接下来对步长进行考虑

（一）、固定步长下降法

令 $\alpha_k=constant$ ,
即：
S1: $d_k=-\nabla f$ (x^$(k)$)
S2: $\alpha_k=constant$
S3: $x$ ^{$(k + 1)$} $=$ $x$ ^$(k)$ $-\alpha_kd_k$

（二）、最速梯度下降法：

改变下降步长：
$\alpha_k=$ $a r g m i n$ _$\alpha>0$ $f$ ( $x$ ^$(k)$- $\alpha_k$ $\nabla f$ ( $x$ ^$(k)$) 在这里插入图片描述从上图中可看出最速梯度下降法的原理：每次出发依从负梯度方向直到寻找到满足停机准则的最小 $x$ ^{$(k + 1)$}。对于最速而言，是由于在每个点下降时都是一个 $m i n$ ,但是也有缺陷，它可能无限次接近最优点，所以一个好的停机准则或迭代次数是必须的。

(三)、牛顿下降法

根据泰勒展开： $f (x) \approx f$ (x^$(k)$) $+$ ( $x - x$ ^(k)) $g$ ^(k) $+\frac{1}{2}$ ( $x - x$ ^(k)) $F$ $(x$ ^(k))( $x - x$ ^(k)),两边求导得到牛顿下降法的迭代公式：
$x$ ^{$(k + 1)$} $=$ $x$ ^$(k)$ $-$ $F$ $(x$ ^(k))^-1 $g$ ^(k)
当初始点接近于最优点的时候，牛顿法的收敛速度更快，但是若初始点选的不好会出现不能收敛到最优点的情况。特别的是，该方法可能不是下降算法，缺陷比较大，需要正确情况正确选择。

（四）、共轭梯度法

$Q$ $共轭 D 定义：$ $d_1Qd_2=0，则d_1和d_2Q共轭$
寻找一组正交基代表梯度下降方向，根据二次型矩阵Q的维数来决定基的个数。如何寻找：1、直接建立根据定义，先任意一个非0的向量，再根据定义法求得。2、Gram-Schmidt ,斯密斯正交变换。
基本算法：假设已寻找到一组共轭基 $d$ ^(k), $k = 0, 1, 2, . . ., n - 1$ ,
给定初始点 $x$ ^{$(0)$
$\begin{aligned} \boldsymbol{g}^{(k)} &=\nabla f\left(\boldsymbol{x}^{(k)}\right)=\boldsymbol{Q} \boldsymbol{x}^{(k)}-\boldsymbol{b} \\ \alpha_{k} &=-\frac{\boldsymbol{g}^{(k) \top} \boldsymbol{d}^{(k)}}{\boldsymbol{d}^{(k) \top} \boldsymbol{Q} \boldsymbol{d}^{(k)}} \\ \boldsymbol{x}^{(k+1)} &=\boldsymbol{x}^{(k)}+\alpha_{k} \boldsymbol{d}^{(k)} \end{aligned}$}

具体算法步骤：

Set $k : = 0;$ select the initial point $\boldsymbol{x}^{(0)}$
$\boldsymbol{g}^{(0)}=\nabla f\left(\boldsymbol{x}^{(0)}\right) .$ If $\boldsymbol{g}^{(0)}=\mathbf{0},$ stop; else, set $\boldsymbol{d}^{(0)}=-\boldsymbol{g}^{(0)}$
$\alpha_{k}=-\frac{g^{(k) \top} d^{(k)}}{d^{(k) \top} Q d^{(k)}}$
$\boldsymbol{x}^{(k+1)}=\boldsymbol{x}^{(k)}+\alpha_{k} \boldsymbol{d}^{(k)}$
$\boldsymbol{g}^{(k+1)}=\nabla f\left(\boldsymbol{x}^{(k+1)}\right) .$ If $\boldsymbol{g}^{(k+1)}=\mathbf{0},$ stop.
$\beta_{k}=\frac{\boldsymbol{g}^{(k+1) \top} \boldsymbol{Q} \boldsymbol{d}^{(k)}}{\boldsymbol{d}^{(k) \top} \boldsymbol{Q} \boldsymbol{d}^{(k)}}$
$\boldsymbol{d}^{(k+1)}=-\boldsymbol{g}^{(k+1)}+\beta_{k} \boldsymbol{d}^{(k)}$
Set $k : = k + 1;$ go to step 3

Three well-known modifications：
HS Formula： $\beta_{k}=\frac{\boldsymbol{g}^{(k+1) \top} \boldsymbol{Q} \boldsymbol{d}^{(k)}}{\boldsymbol{d}^{(k) \top} \boldsymbol{Q} \boldsymbol{d}^{(k)}}$

PR Formula： $\beta_{k}=\frac{\boldsymbol{g}^{(k+1) \top} \boldsymbol{g}^{(k+1)}-\boldsymbol{g}^{(k+1) \top} \boldsymbol{g}^{(k)}}{\boldsymbol{g}^{(k) \top} \boldsymbol{g}^{(k)}}$