迭代求解最优化问题——信赖域方法

最新推荐文章于 2025-04-12 23:02:57 发布

炽霜

最新推荐文章于 2025-04-12 23:02:57 发布

阅读量1.1w

点赞数 3

分类专栏：数值优化文章标签：迭代优化

本文链接：https://blog.csdn.net/frozenspring/article/details/78898308

版权

数值优化专栏收录该内容

8 篇文章

订阅专栏

信赖域方法

前面提到了Line Search算法分为两步，首先确定方向，然后确定步长，实际上是假设近似模型在某一方向上可以较好的代表真实模型。Trust region算法则在此基础上，假设在一个选定的可信赖区域中，可以选择一个近似模型较好的代表真实模型，从而计算迭代增量。

信赖域方法的一般形式

由上面的表述我们可以得到信赖域方法的几个要素

近似模型 $m_k$
可信赖区域 $\Omega_k=\{x\in R^n|||x-x_k||\le\Delta_k\}$ ，其中 $\Delta_k$ 称为信赖域半径
迭代增量 $p_k$ 。包括方向和步长。

由此我们可以得到信赖域方法的基本形式
假设目标函数为 $f (x)$ ,令 $m_k(p)=f(x_k+p)$ 。在第k次迭代中的增量
$p_k=\arg\min_km_k(p)~~s.t. ||p||\le\Delta_k$

这个问题称为信赖域方法的子问题。该问题为带约束的优化问题。可以使用KKT条件进行求解。但是实际问题中我们并不一定要找到最优解。

近似模型的选取

近似模型的选取可以有很多种。一般在当前的邻域对函数进行泰勒展开并取前几项就得到了一个近似模型。在此不多举例。

衡量近似模型对于真实模型的效果，我们使用预测下降量与实际下降量的比值来评判。

假设求解上面的优化问题得到第k步的增量为 $p_k$ 。目标函数在第k步的实际下降量记为
$Ared_k=f(x_k)-f(x_k+p_k)$
近似模型的下降量为：
$Pred_k=m_k(0)-m_k(p_k)$
定义比值:
$r_k=Ared_k/Pred_k$
它可以衡量二次模型与目标函数的逼近程度， $r_k$ 越接近于1，表明接近程度越好。

信赖域半径的确定

使用上面得到的 $r_k$ ，我们可以确定下次迭代的信赖域半径。

$r_k$ 接近1，表明近似效果好，可以适当增加信赖域半径
$r_k>0$ 但是不接近1，保存 $\Delta_k$ 不变
$r_k$ 接近于0，减小信赖域半径
$r_k<0$ ，缩小信赖域

信赖域算法流程

由此我们得到信赖域算法的步骤

给出初始点 $x_0$ 和初始信赖域半径 $\Delta_0$ ，开始迭代
计算模型在第k步的近似。求解最优化子问题，得到试探步长。
求解 $r_k$
若 $r_k\le 0.25$ ，缩小信赖域半径，令 $\Delta_{k+1}=||s_k||/4$ 。若 $r_k>0.75$ ，扩大信赖域半径，使得 $\Delta_{k+1}=2\Delta$ 。若 $0.25<r_k\le 0.75$ 。维持当前信赖域半径。若 $r_k<0$ ，缩小信赖域重新计算当前试探步长。

LM算法

前面提到LM算法是一种信赖域方法，具体来说，它是选取二次函数逼近真实模型的信赖域算法。

在第k次迭代左右，我们使用二次函数来近似当前模型有
$f(x_k+p)=f_k+g_k^Tp+\frac{1}{2}p^T\Delta^2f_kp$
Hessian矩阵的计算过于复杂，我们经常使用对称非奇异矩阵 $B_k$ j近似Hessian矩阵，即
$m_k=f_k+g^T_kp+\frac{1}{2}p^TB_kp$
信赖域的子问题表示为
$\hat p = \min m(p)=f+g^Tp+\frac{1}{2}p^TBp~s.t.||p||\le \Delta_k$

使用KKT条件可以得到该问题的最优解。假设最优解为 $p^*$ ，此时存在标量 $\lambda$ 满足

$B+\lambda I=-g$
$\lambda(\Delta-||P^*||)=0$
$(B+\lambda I)$ 正定

可以看到LM算法中 $B=J^TJ$ 。条件3自然满足。从而得到 $(J^TJ + \lambda I)p_k=-J^Tb$ 。这里实际上是使用了 $\lambda$ 隐式的表达信赖域。

DogLeg方法

类似LM算法，DogLeg方法同样结合了高斯牛顿法和梯度下降法。不同的是它显式的使用了信赖域。

使用高斯牛顿法和梯度下降法分别得到迭代的步长 $\delta _{gn}$ 和 $\delta _{sd}$ 。对半径为 $\Delta$ 的信赖域使用DogLeg方法计算出来的步长为
$\delta_{dl}:=\left\{\begin{aligned} &\delta_{gn}, &||\delta_{gn}||<\Delta\\ &\frac{\Delta}{\delta_{sd}}\delta_{sd}, &||\delta_{sd}||>\Delta \\ &\delta_{sd}+\beta(\delta_{gn}-\delta_{sd}), &||\delta_{gn}||>\Delta,||\delta_{sd}||<\Delta \end{aligned} \right.$
可以看到，DogLeg方法实际上使用了如下策略：

如果高斯牛顿法的步长小于信赖域半径，则等同于高斯牛顿法
如果高斯牛顿法和梯度下降法步长都大于信赖域半径，则将梯度下降法的步长缩放到信赖域半径。
如果不满足以上条件，则以连接 $\delta_{gn}$ 与 $\delta_{sd}$ 的端点，与信赖域相交于某一点d，从原点指向d的向量即为本次迭代的步长。