数值优化——无约束优化

Super超星

已于 2024-02-06 11:55:51 修改

阅读量1.5k

点赞数 16

分类专栏：数值优化文章标签：自动驾驶 c++ 人工智能算法

于 2024-02-06 11:53:42 首次发布

本文链接：https://blog.csdn.net/m0_55918181/article/details/136054418

版权

数值优化专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了无约束优化问题的基本概念，包括最速下降法、牛顿法（及其BFGS变种）和共轭梯度法，着重讨论了每种方法的原理、步长确定和优缺点。文中还涉及了牛顿法的泰勒展开和Hession矩阵的应用，以及BFGS方法在非凸函数优化中的处理策略。

摘要由CSDN通过智能技术生成

数值优化——无约束优化

参考资料来源：深蓝学院《机器人中的数值优化》一课

注：推荐大家都可以看一下这门课，本文在于理论解读，作业的代码部分之后再写博客。

问题描述

无约束优化

无约束优化问题指的是无约束条件下的优化问题、主要方法有最速下降法、牛顿法、拟牛顿法、共轭梯度法等。一般来说无约束优化可以归为如下模板，不同方法在于下降方向的不同，工程上步长一般选择Inexact line search方法。模板如下：

step1:给定一个初始点 $x^{0}$ ,令 $k = 0$
step2:根据相应准则确定一个下降方向 $d^{k}$
step3:确定步长 $\alpha_{k}$ ,使得 $f(x^{k}+\alpha_{k}d^{k})<f(x^{k})$
step4:令 $x^{k+1}=x^{k}+\alpha_{k}d^{k}$
step5:当迭代点 $x^{k+1}$ 满足某种终止准则时，则停止迭代，以 $x^{k+1}$ 为近似最优解；否则 $k = k + 1$ ,转 $s t e p 2$

A.最速下降法

最速下降法2

最速下降法的下降方向采用的是当前点的负梯度方向，步长采用的是Inexact line search方法。
最速下降法3

Inexact line search方法也即Backtracking/Armijo line search,求解也很简单，初始 $\tau$ 可以给一个值，判断是否满足 $f(x^{k}+\tau d)<=f(x^{k})+c\tau d^{T} \bigtriangledown f(x^{k})$ 条件，不满足则一直二分，直至满足。
最速下降法1

该图为最速下降法的示意图，给定一个初始值，不断按照负梯度方向靠近局部最小值。但是该方法存在以下缺点：函数的曲率很大，或者条件数很大的时候，采用梯度下降法可能需要很多的迭代次数。

B.牛顿法

牛顿法1

牛顿法的原理在于在当前迭代处做二次泰勒展开近似，下一次迭代的点为之前迭代处拟合的函数的最低点，也即红色框对应的部分。
牛顿法2

牛顿法的伪代码如上图所示，其中 $M$ 为Hession矩阵，步长依旧采用Inexact line search方法，但是该方法存在以下缺点：

Hession要求正定（实际上很难满足）
需要求Hession的逆，计算复杂度 $O(n^{3})$

C.拟牛顿法

拟牛顿的核心原理在于在牛顿法的基础上，仅仅使用原函数和其梯度信息来估计Hession的逆，从而克服牛顿法的某些缺点，这里主要介绍BFGS类的拟牛顿法

I 光滑凸函数的BFGS方法

BFGS1

上图为光滑凸函数的BFGS方法，流程与牛顿法类似，不同在于使用 $B^{k}$ 来近似代替hession的逆， $B^{k}$ 的推导公式也很优美，如下图所示：
BFGS2

II 光滑非凸函数的BFGS方法

BFCS3

上图为光滑非凸函数的BFGS方法，与光滑凸函数的BFGS方法相比，主要在于两点的不同:

步长 $t$ 采用的是Wolfe准则的inexact line search方法
BFGS的更新 $B^{K+1}$ 公式加入了cautious判断准则

BFGS5

BFGS6

Wolfe准则有weak和strong两个版本，其在原来inexact line search方法基础上增加了紫色的不等式，该目的是为了保证非凸函数 $\Delta g^{T}\Delta x>0$ ,从而保证拟合的B矩阵是正定的
BFGS4

BFGS的更新 $B^{K+1}$ 公式加入了cautious判断准则即为，当不靠近局部最小值时，不更新B矩阵，靠近局部最小值时更新B矩阵，阈值即为上图分段函数的条件

III L-BFGS方法

LBFGS1

上图为非光滑非凸函数的BFGS方法，与光滑非凸函数的BFGS方法相比，主要在于两点的不同:

步长 $t$ 采用的是Lewis Overton line search(weak版本)
BFGS的更新 $B^{K+1}$ 公式加入了滑动窗口原则
$\LBFGS2.PNG$

Lewis Overton line search即初始化步长区间为 $[0,\inf]$ ，试探性初始化步长为 $\alpha=1$ ，若不满足Wolfe准则的第一个条件 $S(\alpha)$ ，则将 $u$ 修改为 $\alpha$ ;若不满足Wolfe准则的第二个条件 $C(\alpha)$ ,则将 $l$ 修改为 $\alpha$ ,直至都满足wolfe准则。同时根据 $u$ 的取值对 $\alpha$ 进行二分或者扩大的操作

LBFGS3

维护一个历史的滑动窗口，共 $m$ 对 $\Delta x$ 和 $\Delta y$ ,为了方便描述分别用 $s^{k}$ 和 $y^{k}$ 表示，即存储从 $s^{k-m+1}$ 和 $y^{k-m+1}$ 到 $s^{k}$ 和 $y^{k}$ 的 $m$ 组数据,在计算当前 $B^{k}$ 时，先初始化 $B^{0}$ 为单位阵，然后从滑动窗口初始处 $s^{k-m+1}、y^{k-m+1}$ 开始利用这 $m$ 组数据进行 $m$ 次迭代，这样操作的话会使时间复杂度变为 $O(mn^{2})$ ,所以可以采用如红框所示的流程从而使时间复杂度变为 $O (mn)$

C.共轭梯度法

$\共轭梯度法1$

共轭梯度法求解的即是 $A x = b$ 的问题(A为正定对称矩阵)，其中 $A$ 不可访问（但可以调用 $\gamma(x):Ax$ ）， $b$ 可以访问,在上述条件下可以将其转为一个无约束优化问题，令目标函数的梯度为 $A x - b$ ,从而构造的目标函数为 $\frac{1}{2}x^{T}Ax-b^{T}x$ 。
共轭梯度3
迭代过程如上图所示，关键是构造一组共轭向量
在这里插入图片描述