凸优化——无约束优化问题常用求解方法

最新推荐文章于 2023-06-29 11:36:14 发布

爱学习的吨吨a

最新推荐文章于 2023-06-29 11:36:14 发布

阅读量1.3k

点赞数

分类专栏：凸优化

本文链接：https://blog.csdn.net/qq_30516823/article/details/117709165

版权

凸优化专栏收录该内容

2 篇文章 0 订阅

订阅专栏

无约束优化问题常用求解方法

在这里插入图片描述

1.前情提要

上一章说了线搜索下降算法的几个关键问题，确定步长和下降方向，前一章的线搜索方法主要是确定步长。这一章确定下降方向。

2. 坐标轴下降法

3. 最速下降法

4.牛顿法

5. 修正牛顿法

6. 拟牛顿法

7. 共轭梯度法

（1）共轭方向

定义： 设A为 $\times n$ 阶实对称矩阵，如果有两个n维向量 $d^{0},d^1$ ,满足 ${(d^{0})}^TA d^1=0$ ，则向量 $d^{0},d^1$ 是关于A共轭的向量。

几何解释：

对于二次函数： $f(x)=1/2X^TAX+B^TX+C$ ，有以下等值线。

假设有初始点 $X^0$ ，和方向 $d^0$ ，可以得到必有一等值线与方向 $d^0$ 相切。设走 $\alpha^0d^0$ 可以到达 $X^1$ ，再假设 $d^1$ 为指向最优解方向，走 $\alpha^1d^1$ 。

公式化上述过程 : $X^0\stackrel{\alpha^0d^0}\rightarrow d^1\stackrel{\alpha^1d^1}\rightarrow X^*$
在这里插入图片描述

探究：此时 $d^0和d^1$ 有什么关系呢？
因为 $X^*$ 是最优解，所以对 $f (X)$ 求一阶导时：
$\nabla f(X^*)=AX^*+B=0$
因为:
$X^*=X^1+\alpha^1d^1$
所以:
$\nabla f(X^*)=A(X^1+\alpha^1d^1)+B=0$
$\nabla f(X^*)=(AX^1+B)+\alpha^1Ad^1=0$
这里注意到：
$\nabla f(X^1)=(AX^1+B)$
两边同时乘以 $d^0$ :
$(d^0)^T\nabla f(X^1)+\alpha^1(d^0)^TAd^1=0$
因为 $d^0和\nabla f(X^1)$ 正交，又因为 $\alpha^1\neq0$ ，所以： $d^0)^TAd^1=0$

A的特例是Hessian矩阵

共轭向量几个特性

若 $A=I，(d^0)^TId^1=(d^0)^Td^1=0$ ，所以 $d^0，d^1正交$
若 $A\neq I，d^1经过矩阵A的变换，设[(d^1)']=Ad^1$ ，与 $d^0$ 正交。
（因为 $d^0)^TA^TAd^1=(Ad^0)^TAd^1$ ）
共轭向量线形无关

正交是共轭的特例，共轭是正交的推广！

（2）共轭方向的形成

以二维正定的二次函数为例，第 $K$ 轮迭代。连线 $X^0,X^2$ 构成的向量即为共轭向量 $d$ 。即：
$d=X^2-X^0$
证明： $d与d^2$ 共轭
$f(X)=\frac{1}{2}X^TAX+B^TX+C$ ， $\nabla f(X)=AX+B$

$X^2点$ ： $\nabla f(X^2)=AX^2+B$ ; $X^0点$ ： $\nabla f(X^0)=AX^0+B$

左乘 $d^2$ :

$\begin{cases} (d^2)^T\nabla f(X^0)=(d^2)^TAX^0+(d^2)^TB=0\\ (d^2)^T\nabla f(X^2)=(d^2)^TAX^2+(d^2)^TB=0 \end{cases}$

因为： $d^2与f(X^2)正交$

两个式子相减：
$d^2)^TA(X^2-X^0)=(d^2)^TAd = 0$
得证。

在这里插入图片描述

（3）线形共轭梯度法——求解二次函数

思想： 将共轭性和梯度下降法相结合，利已知点处的梯度构造一组共轭方向。并沿着这组方向进行搜索，求出目标函数的极小值。

目标函数： $f(X)=\frac{1}{2}X^TAX+BX+C$

步骤：

任意给定一个初始点 $X^1$ ，计算该点的梯度 $g_1=\nabla f(X^1)$ ，若 $||g_1||=0，则停止计算；否则，令d^1=-\nabla f(X^1)=-g_1$ 。沿 $d^1$ 方向走 $\alpha_1$ 到达 $X^2$ ，计算该点梯度 $g_2=\nabla f(X^2)$ ，如果 $||g_2||\neq0$ ,则利用 $g_2$ 和 $d^1$ 构造第2个搜索方向 $d^2$ ，再沿着 $d^2$ 走, 以此类推…

推广到一般情况：

推广到 $X^K$ ：已知方向 $d^K$ ,则从 $X^k$ 出发，沿 $d^k$ 搜索，得到 $X^{k+1}=X^k+\alpha_Kd^k$

其中步长 $\alpha_K$ 满足： $\alpha_k=argminf(X^k+\alpha_kd^k)$ ， $\alpha_k=-\frac{\nabla f(X^k)^Td^k}{(d^k)^TAd^k}$ .

然后计算 $f (X$ )在 $X^{k+1}$ 处的梯度 $\nabla f(X^{k+1})$ ，若 $||\nabla f(X^{k+1})||=0$ ,则停止计算；否则，用 $-\nabla f(X^{k+1})$ 和 $d^k$ 构造下一个搜索方向 $d^{k+1}$ ,并使 $d^{k+1}$ 与 $d^k$ 关于 $A$ 共轭,按此设想，令： $d^{k+1}=-\nabla f(X^{k+1})+\beta_kd^k$
上式两端左乘 $d^K)^TA$ ，得：
$(d^K)^TAd^{k+1}=-(d^K)^TA\nabla f(X^{k+1})+\beta_k(d^K)^TAd^k$
使其等于0，得：
$\beta_k=\frac{\nabla f(X^{k+1})Ad^k}{(d^k)^TAd^k}$
再从 $X^{k+1}$ 出发，沿方向 $d^{k+1}$ 搜索。

共轭方向法是一类方法，共轭梯度法就是其中一个方法。

公式简化：
目的：让表达式与梯度之间构建起联系
(1) 共轭梯度法的步长公式：
$\alpha_k=-\frac{\nabla f(X^k)^Td^k}{(d^k)^TAd^k}$
因为: $d^k=-\nabla f(X^k)+\beta_{k-1}d^{k-1}$
所以分子变成：
$-\nabla f(X^k)^T(\nabla f(X^k)+\beta_{k-1}d^{k-1})$

即：
$-\nabla f(X^k)^T\nabla f(X^k)+\beta_{k-1}\nabla f(X^k)^Td^{k-1}$

因为： $\nabla f(X^k)d^{k-1}=0$

所以，可简化为：
$\alpha_k=-\frac{\nabla f(X^k)^T\nabla f(X^k)}{(d^k)^TAd^k}$

（2）共轭梯度法步长公式中的系数

$\beta_k=\frac{\nabla f(X^{k+1})Ad^k}{(d^k)^TAd^k}$

分子 $\nabla f(X^{k+1})Ad^k=\nabla f(X^{k+1})(\nabla f(X^{k+1})-\nabla f(X^k))\frac{1}{\alpha_k}$

所以：

$\beta_k=\frac{\nabla f(X^{k+1})(\nabla f(X^{k+1})-\nabla f(X^k))\frac{1}{\alpha_k}}{(d^k)^TAd^k}$

$\beta_k=\frac{1}{\alpha_k}\frac{\nabla f(X^{k+1})(\nabla f(X^{k+1})-\nabla f(X^k))\frac{1}{\alpha_k}}{(d^k)^TAd^k}$

$\beta_k=\frac{\nabla f(X^{k+1})^T\nabla f(X^{k+1})^T}{\nabla f(X^k)^T\nabla f(X^k)}$

简化是为了推广到非线性共轭梯度法。没有出现二次目标函数的A，方便计算

（4）非线性共轭梯度法——求解一般性函数

FR、PRP方法
步骤：

step0: 给定初始点 $X^0$ ，记 $d^0=-\nabla f(x^0)，\epsilon>0,k=0$
step1: 判断 $||\nabla f(X^k)||\leq\epsilon$ 是否成立；是，则终止了；
step2: 利用线形搜索计算步长 $\alpha_k$
step3: 令 $X^{k+1}=X^k+\alpha_kd^k$ ,并计算方向：
$d^{k+1}=-\nabla f(X^{k+1}+\beta_kd^k)$
其中： $\beta_k=-\frac{\nabla f(X^{k+1})^T(\nabla f(X^{k+1})-\nabla f(X^k))}{\nabla f(X^k)^T\nabla f(X^k)}$ （PRP法）

或者： $\beta_k=-\frac{\nabla f(X^{k+1})^T\nabla f(X^{k+1})}{\nabla f(X^k)^T\nabla f(X^k)}$ （FR法）

令 $K = K + 1$ ，转向step 1

注意：

实践中，为了保证每次产生的方向为下降方向，可能会对 $\beta_k$ 进行调整
具有二次终止性
实现过程中常采用n步重启策略，可达到二阶收敛(有n个共轭方向后，重新取初始点)

优点：

与最速下降法相比，速度快
与牛顿法比，存储量小，适用于n大时

references

[1] 最优化理论与方法-第七讲-无约束优化问题（三）https://www.bilibili.com/video/BV1pk4y1R7WS/?spm_id_from=333.788.recommend_more_video.-1
[2] 陈宝林最优化理论与算法(第2版)
[3] https://www.xuetangx.com/learn/ecust13051002148/ecust13051002148/5883504/video/9207474

爱学习的吨吨a

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
凸优化——无约束优化问题常用求解方法

无约束优化问题常用求解方法1.前情提要上一章说了线搜索下降算法的几个关键问题，确定步长和下降方向，前一章的线搜索方法主要是确定步长。这一章确定下降方向。2. 坐标轴下降法3. 最速下降法4.牛顿法5. 修正牛顿法6. 拟牛顿法...
复制链接

扫一扫