凸优化——凸优化问题与算法

最新推荐文章于 2025-03-12 21:07:55 发布

楠兮兮

最新推荐文章于 2025-03-12 21:07:55 发布

阅读量4.3k

点赞数

分类专栏：数学

本文链接：https://blog.csdn.net/X1009190387/article/details/105522360

版权

数学专栏收录该内容

12 篇文章

订阅专栏

本文探讨了凸优化问题的基本概念，包括一般优化问题、线性规划、二次规划及其变种，以及对偶性原理。深入讲解了拉格朗日函数、共轭函数、强对偶与弱对偶问题，并详细阐述了KKT条件在凸优化中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、凸优化问题
考虑一个优化问题，其优化函数为凸函数，其约束集为凸集，则广义的称其为凸优化问题。

1.1 一般优化问题
再考虑一般优化问题的描述，形如 $\begin{aligned}min\ &f_0(\bm{x})\\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & h_i(\bm{x}) = 0, i = 1, ..., p\end{aligned}$ 其中， $\bm{x}$ 称为优化变量； $f_0:\bm{R}^n \rightarrow R$ 称为目标函数或损失函数，或在极大化问题中称为效用函数； $f_i:\bm{R}^n \rightarrow R$ 称为不等式约束； $h_i:\bm{R}^n \rightarrow R$ 称为等式约束；所有函数的定义域交集 $\bigcap_{i=0}^m dom f_i \cap\bigcap_{i=1}^pdom h_i$ 称为优化问题的域；满足约束的解 $\bm{x} \in D$ 的集合 $X_f$ 称为可行解集。
若 $X_f \ne \varnothing$ ，则总有 $\bm{x} \in X_f$ 使得目标函数取得最优值 $p^* = inf\{f_0(\bm{x})|\bm{x} \in X_f\}$ 若 $X_f = \varnothing$ ，则取 $p^*$ 取 $+\infty$ ，以说明该极小化问题无意义。
对应的，若 $\bm{x}^* \in D$ 且 $f_0(\bm{x}^*) = p^*$ 则称其为问题的最优解。最优解可以不唯一，便形成了最优解集 $X_{opt} = \{\bm{x}|\bm{x} \in X_f, f_0(\bm{x}) = p^*\}$ 然而很多实际问题并不需要最优解，考虑图像处理时PSNR过高，这是不必要的。对于达到一种对于工程问题充足满意的解，称为 $\epsilon$ 次优解集，形如 $X_\epsilon = \{\bm{x}|\bm{x} \in X_f, f_0(\bm{x}) \le p^*+\epsilon\}$ 再考虑一种解，其在局部范围内最优，称为局部最优解，形如 $f_0(\bm{x}) = inf\{f_0(\bm{z})|s.t.\, ||\bm{z} - \bm{x}|| \le R, \exist R > 0\}$ 对于寻找可行解集的问题，称为可行性优化问题，形如 $\begin{aligned}min\ &0 \\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & h_i(\bm{x}) = 0, i = 1, ..., p\end{aligned}$
1.2 凸优化问题
狭义的考虑一种简单的凸问题，形如 $\begin{aligned}min\ &f_0(\bm{x})\\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & \bm{a}_i^T\bm{x} = b_i, i = 1, ..., p\end{aligned}$ 其目标函数、不等式约束函数为凸函数，且等式约束函数为仿射函数。其有一条重要性质，即其局部最优解就是全局最优解。
当目标函数可微时，考虑凸函数的一阶性质，即$ $f(\bm{y}) \ge f(\bm{x}) + ▽f^T(\bm{x})(\bm{y} - \bm{x}), \forall \bm{x}, \bm{y} \in dom\ f$ 再考虑凸问题的可行域 $X_f$ ，则当 $▽f^T(\bm{x}^*)(\bm{y} - \bm{x}^*) \ge 0, \forall \bm{y} \in X_f$ 自然有 $\bm{x}^* \in X_f$ 是最优解。

1.3 线性规划
考虑线性规划问题 $\begin{aligned}min\ &\bm{c}^T\bm{x} + \bm{d} \\ s.t.\ & \bm{G}\bm{x} \le \bm{h} \\& \bm{Ax} = \bm{b} \end{aligned}$ 其目标函数与约束均是仿射的，其是凸问题的一个特例，其约束集是一个多面体，而最优值总是存在且至少有一个取在多面体的顶点。
考虑线性规划问题的等价变换，形如 $\begin{aligned}min\ &\bm{c}^T\bm{x} + \bm{d} \\ s.t.\ & \bm{G}\bm{x} + \bm{S} = \bm{h} \\& \bm{Ax} = \bm{b} \\& \bm{S} \ge 0 \end{aligned}$ 其中 $\bm{S}$ 称为松弛变量，其与上述式等价。再进行变换，考虑这样的问题，对于上述问题的最优解 $\bm{x}^* = \{x_n\}$ ，取出其中的正元素向量 $\bm{x}^+$ 与复元素向量 $\bm{x}^-$ ，使得 $\bm{x}^+ - \bm{x}^- = \bm{x}^*$ 即 $\begin{aligned}min\ &\bm{c}^T\bm{x}^+ - \bm{c}^T\bm{x}^- + \bm{d} \\ s.t.\ & \bm{G}\bm{x}^+ - \bm{G}\bm{x}^+ + \bm{S} = \bm{h} \\& \bm{Ax}^+ - \bm{Ax}^- = \bm{b} \\& \bm{S} \ge 0 \\& x_i^+ \ge 0 \\& x_i^- \ge 0 \end{aligned}$ 该变换依然等价，因为再变换前后，都有一一对应的可行解并且使得函数保持一致。虽然约束与自变量增加了，但其等式约束均仿射，且约束均为非负，故一般的优化问题都可以写成 $\begin{aligned}min\ &\bm{c}^T\bm{x} \\ s.t.\ &\bm{Ax} = \bm{b} \\& x_i \ge 0 \end{aligned}$
1.4 二次规划
考虑二次规划问题 $\begin{aligned}min\ &\bm{x}^T\bm{px} / 2 + \bm{q}^T\bm{x} + r \\ s.t.\ & \bm{G}\bm{x} \le \bm{h} \\& \bm{Ax} = \bm{b} \end{aligned}$ 其目标函数为凸的二次函数，即 $\bm{p} \succeq 0$ ，且约束仿射。
线性规划的最优值总是存在且至少有一个取在约束的顶点，而二次规划的最优值可能出现在约束的内部。
当约束非仿射，而是一种二次的凸约束，则称其为二次约束二次规划【Quadratically Constrained Quadratic Programming，QCQP】，形如 $\begin{aligned}min\ &\bm{x}^T\bm{px} / 2 + \bm{q}^T\bm{x} + \bm{r} \\ s.t.\ & \bm{x}^T\bm{Px} / 2 + \bm{Q}^T\bm{x} + \bm{h} \le 0 \\& \bm{Ax} = \bm{b} \end{aligned}$ 考虑带噪声的系统 $\bm{b} = \bm{Ax} + \bm{e}$ 这是一个信号恢复问题，对于已知的 $b$ 与 $\bm{A}$ ，在未知误差 $e$ 下估计 $\bm{x}$ 的值。考虑最小二乘法，形如 $\begin{aligned} \hat\bm{x} &= argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2 \\&= argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 \\&= argmin_\bm{x}\bm{x}^T\bm{A}^T\bm{Ax} - 2\bm{b}^T\bm{Ax} + \bm{b}^T\bm{b} \\&= (\bm{A}^{-1}\bm{A})^{-1}\bm{A}^T\bm{b} \end{aligned}$ 再考虑 $\bm{x}$ 是稀疏的，那么定义优化函数，形如 $\hat\bm{x} = argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 + \lambda_0||\bm{x}||_0$ 以优化误差与稀疏程度。然而，带有0范数的函数是非凸函数，可以近似为 $\hat\bm{x} = argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 + \lambda_1||\bm{x}||_1$ 该问题称为l1范数规范化问题。但该问题虽然是凸问题，但1范数不符合二次规划问题，取 $\bm{x} = \bm{x}^+ - \bm{x}^-$ 形如 $\hat\bm{x} = argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 + \lambda_1||\bm{x}^+ - \bm{x}^-||_1$ 即 $\begin{aligned}min\ & ||\bm{b} - \bm{Ax}||_2^2 + \lambda_1\bm1^T\bm{x}^+ + \lambda_1\bm1^T\bm{x}^- \\ s.t.\ &\bm{x}^+ \ge 0 \\& \bm{x}^- \ge 0\end{aligned}$ 该问题是一个二次规划问题。
此外，l2范数规范化问题，又称岭回归问题，也是一种重要的问题。考虑 $\bm{x}$ 中的值相差不大，则其2范数较小，形如 $\hat\bm{x} = argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 + \lambda_2||\bm{x}||_2^2$ 其惩罚了权重过大的分量， $\bm{x}$ 的系数为 $\bm{A}^T\bm{A} + \lambda_2\bm{I}$ ，即若 $\lambda_2 > 0$ ， $\bm{x}$ 正定，即该问题是一个凸问题。

二、对偶性
2.1 拉格朗日函数
考虑优化问题 $\begin{aligned}min\ &f_0(\bm{x}) \\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\& h_i(\bm{x}) = 0, i = 1, ..., p \end{aligned}$ 对于一般问题，其不一定是凸的，那么可以从对偶性的角度来解决。
首先考虑 $\bm{x} \in \bm{R}^n$ ，定义域为约束的定义域，以及最优值 $p^*$ ，定义拉格朗日函数，形如 $L(\bm{x}, \bm\lambda, \bm{v}) = f_0(\bm{x}) + \sum_{i=1}^m\lambda_if_i(\bm{x}) + \sum_{i = 1}^pv_ih_i(\bm{x})$ 其中， $\bm{\lambda} \in \bm{R}^m$ ， $\bm{v} \in \bm{R}^p$ 称为拉格朗日乘子。
再定义拉格朗日对偶函数，形如 $g(\bm\lambda, \bm{v}) = inf_{\bm{x} \in D}L(\bm{x}, \bm\lambda, \bm{v})$ 即 $L$ 的下确界。
无论原优化问题的凸性如何，由于 $L(\bm{x}, \bm\lambda, \bm{v})$ 对 $\bm\lambda, \bm{v}$ 是仿射的，故取一系列仿射函数的下界，即对偶函数一定是一个凹函数，且 $\forall \lambda >0, \forall v, g(\bm\lambda, \bm{v}) \le p^*$ 。
设 $\bm{x}^*$ 是上述优化问题的最优解，则其满足约束，即 $f(\bm{x}^*) \le 0, h(\bm{x}^*) = 0$ 那么当 $\forall \lambda >0, \forall v$ ，有 $\sum_{i=1}^m\lambda_if_i(\bm{x}^*) + \sum_{i = 1}^pv_ih_i(\bm{x}^*) \le 0 \\ L(\bm{x}^*, \bm\lambda, \bm{v}) = f_0(\bm{x}^*) + \sum_{i=1}^m\lambda_if_i(\bm{x}^*) + \sum_{i = 1}^pv_ih_i(\bm{x}^*)$ 即 $g(\bm\lambda, \bm{v}) \le L(\bm{x}^*, \bm\lambda, \bm{v}) \le p^*$

2.2 共轭函数
对于映射 $f:\bm{R}^n \rightarrow R$ ，称映射 $f^*(\bm{y}) = sup_{\bm{x} \in dom f}(\bm{y}^T\bm{x} - f(\bm{x}))$ 为映射 $f$ 的共轭。
考虑一个简单的优化问题 $\begin{aligned}min\ &f(x) \\ s.t.\ &x = 0\end{aligned}$ 显然， $x^* = 0$ 。从对偶与共轭的角度考虑，其拉格朗日函数与对偶函数为 $\cap R \\ g(v) = inf_{x \in domf}(f(x) + vx)$ 将对偶函数翻转为上界，形如 $-sub_{x \in domf}(-f(x) - vx)$ 又 $f (x)$ 的共轭函数为 $f^*(-v) = sup_{x \in dom f}(-vx - f(x)))$ 故 $g(v) = -f^*(-v)$

2.3 强对偶与弱对偶问题
考虑最大化优化问题的拉格朗日函数 $\begin{aligned}max\ &g(\bm\lambda, \bm{v}) \\ s.t.\ &\lambda_i \ge 0\end{aligned}$ 该优化问题称为原优化问题的对偶问题。
定义其上界为 $d^*$ ，则 $d^* \le p^*$ 。对偶问题是一个凸问题，其约束为半平面集，故必有最优解，定义最优解为 $\bm\lambda^*, \bm{v}^*$ ，称为对偶问题的最优解，也称最优拉格朗日乘子。该问题的定义域为 $\bm{R}^{m+p}$ 。
首先定义，当一个优化问题的对偶问题的最优解 $d^*$ 与该优化问题的最优解 $p^*$ 有 $d^* \le p^*$ 则称该对偶关系为弱对偶，任何优化问题与其对偶问题都是弱对偶的。而当 $d^* = p^*$ 则称该对偶关系为强对偶。接下来讨论何时一个优化问题与其对偶问题为强对偶关系。
首先给出一些定义。定义对偶间隙 $p^* - d^*$ ，则强对偶时，对偶间隙为0；定义原问题 $D$ 的相对内部 $Relint\ D = \{\bm{x}\in D|B(\bm{x}, r)\cap aff\ D \subseteq D \exists r > 0\}$ 其中， $B(\bm{x}, r)$ 表示以 $\bm{x}$ 为中心， $r$ 为半径的球； $aff\ D$ 表示 $D$ 的仿射包。直观的讲， $D$ 的相对内部就是去除 $D$ 的边界后的开集区域。
有了相对内部的定义，就可以通过斯莱特【Slater】条件使得对偶间隙为0。该条件仅是一个充分条件，仅可在某些条件下使得对偶间隙为0，但不满足该条件依然可能使得对偶间隙为0。该条件的内容为，若有凸问题 $\begin{aligned}min\ &f_0(\bm{x})\\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & h_i(\bm{x}) = 0, i = 1, ..., p\end{aligned}$ 其中 $f_i(x)$ 为凸，当 $\exists \bm{x} \in Relint\ D$ 使得 $f_i(\bm{x}) < 0$ 与 $h_i(\bm{x}) = 0$ 同时成立时，有 $p^* = d^*$ 。

2.4 KKT条件
斯莱特条件给出了凸问题强对偶的充分成立条件。而接下来对于更一般的凸优化问题进行讨论。考虑优化问题 $\begin{aligned}min\ &f_0(\bm{x})\\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & h_i(\bm{x}) = 0, i = 1, ..., p\end{aligned}$ 其对偶函数为 $g(\bm\lambda, \bm{v}) = inf_{\bm{x} \in D}\{ f_0(\bm{x}) + \sum_{i=1}^m\lambda_if_i(\bm{x}) + \sum_{i = 1}^pv_ih_i(\bm{x})\}$ 其对偶问题为 $\begin{aligned}max\ &g(\bm\lambda, \bm{v}) \\ s.t.\ &\lambda_i \ge 0\end{aligned}$ 对于非常一般的优化问题，其分析是十分复杂的，因此做出两个强假设。首先，假设优化问题与其对偶问题是强对偶的；其次，所有函数都是可微的。
考虑优化问题的最优解 $\bm{x}^*$ 与对偶问题的最优解 $\bm\lambda^*, \bm{v}^*$ ，其满足如下性质 $f_i(\bm{x}^*) \le 0, i = 1, ..., m \\ h_i(\bm{x}^*) = 0, i = 1, ..., p \\ \lambda_i^* > 0$ 其分别是优化问题与对偶问题的可行性。再考虑优化问题的最优值 $p^*$ 与对偶问题的最优解 $d^*$ ，有 $\begin{aligned}f_0(\bm{x}^*) &= g(\bm\lambda^*, \bm{v}^*) \\&= inf_{\bm{x} \in D}\{ f_0(\bm{x}) + \sum_{i=1}^m\lambda^*_if_i(\bm{x}) + \sum_{i = 1}^pv^*_ih_i(\bm{x})\} \\&\le f_0(\bm{x}^*) + \sum_{i=1}^m\lambda^*_if_i(\bm{x}^*) + \sum_{i = 1}^pv^*_ih_i(\bm{x}^*) \\&\le f_0(\bm{x}^*) \end{aligned}$ 因此，上述不等式在 $p^* = d^*$ 下，等号恒成立，即 $\sum_{i=1}^m\lambda^*_if_i(\bm{x}^*) = 0$ 又 $\lambda_i \ge 0, f_i(\bm{x}) \le 0$ ，故有 $\lambda^*_if_i(\bm{x}^*) = 0， i = 1, ..., m$ 即有 $f_i(\bm{x}^*) = 0\ if\ \lambda_i^* > 0 \\ \lambda_i^* = 0\ if \ f_i(\bm{x}^*) < 0$ 该条件称为互补松弛条件。再考虑 $inf_{\bm{x} \in D}L(\bm{x}, \bm\lambda^*, \bm{v}^*) = L(\bm{x}^*, \bm\lambda^*, \bm{v}^*)$ ，即 $\bm{x}^*$ 是 $L$ 的全局最优解，那么其一阶偏导有 $∂L(\bm{x}, \bm\lambda^*, \bm{v}^*)/∂\bm{x}|_{\bm{x} = \bm{x}^*} = 0$ 该条件称为稳定性条件。
综上，上述条件可以分为四类：
（1）原问题的可行性；
（2）对偶问题的可行性；
（3）互补松弛条件；
（4）稳定性条件。
上述条件称为KKT条件。
KKT条件是一个必要条件，即优化问题与对偶问题强对偶时必须满足KKT条件。而当原问题是凸问题，各个函数可微，且强对偶时，则KKT条件为充要条件。
考虑凸优化问题的可行解 $\hat\bm{x}, \hat\bm\lambda, \hat\bm{v}$ 满足KKT条件，则 $f_i(\hat\bm{x}) \le 0, i = 1, .., m \\ h_i(\hat\bm{x}) = 0, i = 1, .., m\\ \hat\lambda_i \ge 0, i = 1, ..., m$ 则有 $\begin{aligned} L(\bm{x}, \hat\bm\lambda, \hat\bm{v})& = f_0(\bm{x}) + \sum_{i=1}^m\hat\lambda_if_i(\bm{x}) + \sum_{i = 1}^p\hat{v_i}h_i(\bm{x}) \end{aligned}$ 是一个凸函数的非负加权和，即依然为凸函数，根据稳定性条件，有 $∂L(\bm{x}, \hat\bm\lambda, \hat\bm{v})/∂\bm{x}|_{\bm{x} = \hat\bm{x}} = 0$ 此时， $\hat\bm{x}$ 便是全局最优解，则根据互补松弛条件，有 $\begin{aligned} g(\hat\bm\lambda, \hat\bm{v}) &= inf_{\bm{x} \in D}L(\bm{x}, \hat\bm\lambda, \hat\bm{v}) \\&= L(\hat\bm{x}, \hat\bm\lambda, \hat\bm{v}) \\&= f_0(\hat\bm{x}) + \sum_{i=1}^m\hat\lambda_if_i(\hat\bm{x}) + \sum_{i = 1}^p\hat{v_i}h_i(\hat\bm{x}) \\&= f_0(\hat\bm{x}) \end{aligned}$ 即满足KKT条件时优化问题强对偶。
总结斯莱特条件与KKT条件，可以概述为：凸问题未必强对偶，强对偶问题也未必是凸的，但对于强对偶问题，KKT条件是一个必要条件；而对于凸强对偶问题，KKT条件是一个充要条件。