【最优化】学习笔记 1【梯度方法】

最新推荐文章于 2024-07-11 01:00:00 发布

zmy2019

最新推荐文章于 2024-07-11 01:00:00 发布

阅读量233

点赞数

分类专栏：【最优化】学习笔记文章标签：最优化梯度法

本文链接：https://blog.csdn.net/qq_20520131/article/details/100524819

版权

【最优化】学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【最优化】学习笔记 1

【梯度下降法】

目标函数 $\mathbb R^n \mapsto \mathbb R$
$m i n i m i z e : f$
梯度： $\nabla f(\pmb x)=(\frac {\partial f}{\partial x_1},\frac {\partial f}{\partial x_2},...,\frac {\partial f}{\partial x_n})$
几何含义:梯度方向 $-\nabla f(\pmb x)$ 是函数 $f$ 在 $\pmb x$ 处减少最快的方向
基本思想：从搜索点 $\pmb x^{(k)}$ 开始，以步长 $\pmb \alpha_k$ ，沿着方向 $-\nabla f(\pmb x^{(k)})$ 搜索，不断减小 $f$
（不断的往当前函数值下降最快的方向搜索，是局部最优的迭代）

迭代公式 $\pmb x^{(k+1)}=\pmb x^{(k)} - \pmb \alpha_k\nabla f(\pmb x^{(k)})$
步长过大：计算次数少，但可能不收敛
步长过小：精度高稳定收敛，但计算量大

【最速下降法】

目标函数 $f(\pmb x)=\frac{1}{2}\pmb x^T\pmb Q\pmb x-\pmb b^T\pmb x$

$\lambda_{max}(\pmb Q)$ 、 $\lambda_{min}(\pmb Q)$ 分别为 $\pmb Q$ 特征值中的最大值和最小值
在【梯度下降法】的基础上，确定步长 $\pmb \alpha_k$ 选取的算法
$\pmb \alpha_k=\underset {\alpha \geqslant0}{\arg\min}f(\pmb x^{(k)}-\pmb \alpha\nabla f(\pmb x^{(k)}))$

即每次迭代中，选取合适步长，使得目标函数能够最大程度的减小

【相关结论】
1、相邻搜索方向 $\nabla f(\pmb x^{(k)})$ 与 $\nabla f(\pmb x^{(k+1)})$ 正交 ， $k\in N+$
2、迭代过程中，只要 $\nabla f(\pmb x^{(k)})$ 不为 0，就有 $f(\pmb x^{(k+1)})<f(\pmb x^{(k)})$ （下降特性）

【主要缺陷】
对某些形式的目标函数，迭代路径不断在狭窄的谷底内来回往复，形成锯齿，效率较低

【固定步长】
若对于所有 $k$ ，固定步长 $\pmb \alpha_k=\pmb \alpha\in \mathbb R$ ，要迭代收敛，当且仅当步长 $0<\pmb \alpha<\frac {2}{\lambda_{max}(\pmb Q)}$

【收敛率】
$f(\pmb x^{(k+1)})\leqslant (1-\frac{1}{r})f(\pmb x^{(k)})$

其中 $r=\frac {\lambda_{max}(Q)}{\lambda_{min}(Q)}$
几何意义：以二元二次型函数为例，若等值线为圆，则 $r = 0$ ，从任意起点开始迭代均可一步收敛；随着 $r$ 增加，等值线变为椭圆，且离心率增加，在某些起点开始迭代，收敛速度显著降低
【收敛阶数】
已知序列 $\{\pmb x^{(k)}\}$ 将收敛到 $\pmb x^*$ ，如果 $||\pmb x^{(k+1)}-\pmb x^*||=O(||\pmb x^{(k)}-\pmb x^*||^p)$