最优化方法 26：不动点迭代

最新推荐文章于 2024-02-06 21:25:59 发布

Bonennult

最新推荐文章于 2024-02-06 21:25:59 发布

阅读量4.6k

点赞数 4

分类专栏：凸优化文章标签：凸优化不动点迭代收敛性

本文链接：https://blog.csdn.net/weixin_41024483/article/details/106386934

版权

前面讲了很多具体的算法，比如梯度、次梯度、近似点梯度、加速近似点梯度、PPA、DR方法、ADMM、ALM等，对这些方法的迭代过程有了一些了解。这一节则主要是针对算法的收敛性进行分析，试图从一个更加抽象的层面，利用不动点迭代的思想，把上面的算法综合起来，给一个比较 general 的收敛性分析方法。

1. 什么是不动点？

对于希尔伯特空间(Hilbert space) $\mathcal{H}$ ，定义了内积 $\left<\cdot,\cdot\right>$ 和范数 $\|\cdot\|$ （可以借助于 $R^2$ 来想象）。算子 $T:\mathcal{H}\to\mathcal{H}$ （或者是 $C\to C$ ， $C$ 为 $\mathcal{H}$ 的闭子集）。那么算子 $T$ 的不动点集合就定为
$\mathrm{Fix} T:=\{x \in \mathcal{H}: x=T(x)\}$
如果不动点集合非空，想要研究的是不动点迭代 $x^{k+1}\leftarrow T(x^k)$ 的收敛性。为了简便，常把 $T (x)$ 写为 $T x$ 。

为什么要研究不动点迭代呢？因为前面我们讲的算法里面很多都可以表示为这种形式。

例子 1(GD) ：对于无约束优化 $\min f(x)$ ，不假设 $f$ 一定是凸的。如果有 $\nabla f(x^\star)=0$ ，那么 $x^\star$ 被称为驻点(stationary point)。梯度下降做的什么事呢？ $x^{k+1}=x^k-\gamma \nabla f(x^k)$ ，所以实际上算子 $T$ 为
$T:=I-\gamma \nabla f$
我们要找的最优解 $x^\star$ 满足 $\nabla f(x^\star)=0\Longrightarrow x^\star=T(x^\star)$ ，因此我们要找的就是 $T$ 的不动点。

例子 2(PG1) ：对于有约束优化 $\min f(x),\text{ s.t. }x\in C$ ，假设 $f$ 为正常的闭凸函数， $C$ 为非空闭凸集。对于这个带约束的优化问题，我们可以做完一步梯度下降以后再做个投影 $x^{k+1}\leftarrow \operatorname{proj}_{C}(x^k-\gamma \nabla f(x^k))$ ，所以有
$T:=\operatorname{proj}_{C}(I-\gamma \nabla f)$
而我们要找的最优解需要满足 $\left\langle\nabla f\left(x^{\star}\right), x-x^{\star}\right\rangle \geq 0 \quad \forall x \in C \iff 0\in \nabla f(x^\star)+\partial \delta_C(x^\star)$ ，这实际上还是在找 $T$ 的不动点。

例子 3(PG2) ：上面向 $C$ 的投影实际上也是在算 $\text{prox}$ 算子。对于优化问题 $\min f(x)+g(x)$ 我们要解的方程是
$\begin{array}{c} 0\in \nabla f(x)+\partial g(x) \iff 0\in x+\nabla f(x)-x+\partial g(x) \\ \iff (I-\nabla f)(x)\in (I+\partial g)(x) \\ \iff x=(I+\partial g)^{-1}(I-\nabla f)(x) \end{array}$
上一节讲到了 $(I+\partial g)^{-1}$ 就是 $\text{prox}$ 算子，所以这个不动点迭代就等价于近似点梯度方法。

例子 4(KKT) ：对于优化问题
$\begin{aligned} \min\quad& f_0(x) \\ \text{s.t.}\quad& g(x)\le0 \\ & h(x)=0 \end{aligned}$
拉格朗日函数为 $L(x,\lambda,\nu)=f_0(x)+\lambda^T g(x)+\nu^T h(x),\lambda\ge0$

最低0.47元/天解锁文章