Convex optimization 4.2 ---Strong duality

最新推荐文章于 2021-09-22 11:11:12 发布

expectmorata

最新推荐文章于 2021-09-22 11:11:12 发布

阅读量245

点赞数 1

分类专栏： MATH # CVX 文章标签： optimization

本文链接：https://blog.csdn.net/weixin_43485943/article/details/116489945

版权

MATH 同时被 2 个专栏收录

23 篇文章 6 订阅

订阅专栏

CVX

8 篇文章 1 订阅

订阅专栏

1 Introduction

在4.1节，我们回顾了对偶的原理、如何构建、作用，在4.2继续应用对偶条件，尤其是强对偶条件，帮助我们分析和解决优化问题。

2 Certificate of suboptimality

对于标准的优化问题：
$\left \{ \begin{aligned} & min \quad & f_0(x), x \in R^n \\ & sub \quad & f_i(x) \leq 0, i=1,...m \\ & \quad & h_i(x) =0,i=1,...,p \end{aligned} \right.$
拉格朗日方程
$\lambda, \nu)=f_0(x)+\sum \limits_i^{m} \lambda_if_i(x)+ \sum \limits_i^p\nu_ih_i(x)$
对偶形式方程
$g(\lambda, \nu)=\mathop{inf} \limits_x L(x, \lambda, \nu)$
假定 $x^*是最优解，p^*=f_0(x^*)$ ; 而 $\hat{x}^*、\hat{\lambda}^*、\hat{\nu}^*$ 是通过迭代计算的估计值，有下面的关系
$\begin{aligned} f_0(x)-p^* & \leq f_0(x)-g(\hat{\lambda}^*, \hat{\nu}^*) \\ |f_0(\hat{x}^*)-p^*| & \leq |f_0(\hat{x}^*)-g(\hat{\lambda}^*, \hat{\nu}^*)| \leq \varepsilon \end{aligned}$
当迭代的时候，误差小于限制时，认为结束。但如果并不是强对偶， $\varepsilon$ 并不容易确定到底是多少。
$\color{red}{用这种方法进行评估预测值的误差，一般也是应用在强对偶条件下。}$

3 complementary slackness

3.1 定义

原问题转换成对偶问题后，很自然会对两个问题中的最优解 $x^* \to (\lambda^*, \nu^*)$ 之间的联系产生兴趣。
$\begin{aligned} f_0(x^*) &\geq g(\lambda^*, \nu^*) \\ &\geq \mathop{inf} \limits_x(L(x, \lambda^*, \nu^*)) \\ & \geq \mathop{inf} \limits_x (f_0(x)+\sum \limits_i^{m} \lambda_i^*f_i(x)+ \sum \limits_i^p\nu_i^*h_i(x)) \\ & \geq f_0(x^*)+\mathop{inf} \limits_x(\sum \limits_i^{m} \lambda_i^*f_i(x)) \end{aligned}$

此时，显而易见如果问题满足强对偶条件，则下列条件成立
$\begin{aligned} \lambda_1^*f_1(x)=...=\lambda_m^*f_m(x)=0 \\ \mathop{inf} \limits_{x}(L(x,\lambda^*, \nu^*))=L(x^*,\lambda^*, \nu^*) \end{aligned}$
这其实就是KKT条件，其中一个条件1就是complementary slackness.
$\color{red}指的是如果优化问题满足强对偶条件，则\lambda_1^*f_1(x)=...=\lambda_m^*f_m(x)=0$

3.2 应用

$\left \{ \begin{aligned} & min \quad & c^Tx \\ & sub \quad & Ax \leq b \\ & \quad & x \geq 0 \end{aligned} \right. \quad \to \quad d) \left \{ \begin{aligned} & min \quad & b^T\lambda \\ & sub \quad & A^T\lambda\geq c \\ & \quad & \lambda \geq 0 \end{aligned} \right.$
给具体的数值
$\begin{bmatrix} 1 \\ -2 \\ 3 \end{bmatrix} \quad A= \begin{bmatrix} 1 & 1 & -2 \\ 2 & -1 & -3 \\ 1 & 1 & 5 \end{bmatrix} \quad b= \begin{bmatrix} 1 \\ 4 \\ 2 \end{bmatrix}$

对于线性规划，有一个非常重要的性质[4], $\color{red}即对偶问题的对偶问题是原问题。$
加上这个性质之后，complementary slackness，可以拓展成
$\begin{aligned} \lambda_1^*f_1(x)=...=\lambda_m^*f_m(x)=0 \\ x_1^*\bar{f}_1(x)=...=x_m^*\bar{f}_m(x)=0 \end{aligned}$
代入具体的数值之后，上面的问题变成
$\left \{ \begin{aligned} & min \quad & x_1-2x_2+3x_3 \\ & sub \quad & x_1+2x_2-2x_3 \leq 1 \\ & \quad & 2x_1-x_2-3x_3 \leq 4 \\ & \quad & x_1+x_2+5x_3 \leq 2 \\ & \quad & x_1 \geq0, x_2 \geq0, x_3 \geq0 \end{aligned} \right. \quad \to \quad d) \left \{ \begin{aligned} & min \quad & \lambda_1+4 \lambda_2+2 \lambda_3 \\ & sub \quad & \lambda_1+2 \lambda_2+ \lambda_3 \geq 1 \\ & \quad & \lambda_1- \lambda_2+ \lambda_3 \geq 1 \\ & \quad & -2 \lambda_1-3 \lambda_2+5 \lambda_3 \geq 3 \\ & \quad & \lambda_1 \geq0, \lambda_2 \geq0, \lambda_3 \geq0 \end{aligned} \right.$

假设找到一个最优解
$\left \{ \begin{aligned} x_1^*&= \frac{9}{7} \\ x_2^*&= 0, \\ x_3^*&= \frac{1}{7}, \end{aligned} \right. \quad \to \quad \left \{ \begin{aligned} f_1(x^*)&= 0，\bar{f}_1(\lambda)=0 \\ f_2(x^*)&< 0, \lambda_2=0\\ f_3(x^*)&= 0，\bar{f}_3(\lambda)=0 \end{aligned} \right.$
得到了根据推导出来的关系，代入对偶问题中进行验证，查看是否符合。

4 KKT condition

4.1 定义

slater条件是证明强对偶的充分条件，KKT条件则是证明强对偶的充分必要条件。
在这里插入图片描述

4.2 应用

在凸优化这门课上，我们能解决的问题主要是那几类，普遍都是凸优化问题。用KKT证明强对偶很少，反而利用强对偶这个前提，利用KKT条件，求解最优解。
$\left \{ \begin{aligned} & min \quad & \frac{1}{2}x^Tpx+q^Tx+r, p \in s_+^n \\ & sub \quad & Ax=b \end{aligned} \right.$
根据条件4， $L(x,\nu)=\frac{1}{2}x^Tpx+q^Tx+r+\nu^T(Ax-b)$
$\begin{aligned} \frac{dL}{dx}=px^*+q+A^T\nu=0 \\ Ax^*=b \end{aligned}$
得到了一个重要的条件，方便后面的计算。

5 Perturbation and sensitivity analysis

5.1 定义

很多时候，约束需要调试才能合理的给出，这时扰动和敏感性分析就非常重要。
$\left \{ \begin{aligned} & min \quad & f_0(x) \\ & sub \quad & f_i(x)\leq 0, i=1,...,n \\ & \quad & h_i(x)=0,i=1,...,p \end{aligned} \right. \quad \to \quad p) \left \{ \begin{aligned} & min \quad & f_0(x) \\ & sub \quad & f_i(x)\leq u_i, i=1,...,n \\ & \quad & h_i(x)=v_i,i=1,...,p \end{aligned} \right.$
$\color{red}在进一步深入讨论之前，需要搞清楚，引入pertubation之后，改变的到底是什么？$
$\color{blue}放宽了限制条件，直接改变了x存在的区域$
在这里插入图片描述
对于原问题 $p^*$ 是最优解，
$p^*(u,v)=\mathop{inf} \limits_x \{ f_0(x) | \exists x \in D, f_i(x)\leq u_i, h_i(x)=v_i \}$
如果原问题是凸问题，则 $p^*(u, v)是关于u,v的凸函数$ 。
从上境图很容易理解，集合A是 $f_i, h_i， f_0$ 对应凸集的交集，所以仍然是凸集。
$A=\{ (u,v,t) | \exists x \in D, f_i(x)\leq u_i, h_i(x)=v_i, f_0(x)\leq t \}$

5.2 global pertubation

引入了扰动量之后，当然很关心，扰动量对问题最小值的影响，即 $p^*(0,0)和p^*(u,v)的关系。$
对于一般问题，他们之间的联系太多复杂，先从强对偶条件入手。
用 $D(0,0)表示未加扰动前的定义域dom{x},D(u,v)表示添加扰动后的定义域domx。$
$\begin{aligned} p^*(0,0) & =g(\lambda^*, \nu^*) \\ & \leq f_0(x)+\sum \limits_i^{m} \lambda_i^*f_i(x)+ \sum \limits_i^p\nu_i^*h_i(x)，x\in D(0,0) \\ & \leq f_0(x)+\lambda^Tu+ \nu^Tv，x\in D(u,v) \\ \end{aligned}$
$\color{red}搞不懂从x \in D(0,0) \to x \in D(u,v)上面的式子为何还会继续成立？$
总之，根据上面的式子很容易得到
$p^*(u,v) \geq p^*(0,0)-\lambda^Tu+ \nu^Tv, x \in D(u,v)$

$p^*(u,v) 和 p^*(0,0)的关系可以用下面的图表示：$
$\color{red}关于为何直线和凸函数P^*(u,v)相切？凸函数和直线有且只有一个交点，那必然只能是相切。$
$\color{red}-\lambda 是凸函数p^*(u,v)在点(0,0)处的导数。$
在这里插入图片描述
得到了global pertubation关系之后，对如何调节约束，有了一个大致的指导。

根据这个不等式，可以定性的得到，调节对最小值的影响。

5.3 local pertubation

在5.2，我们用几何图像说明了为何 $凸函数g(u.v)在(0,0)点处的关于u的偏导是-\lambda$ .
用代数证明的过程，这里进行省略。主要是结论
$\begin{aligned} \frac{\partial p^*(u,v)}{\partial u_i}|_{(u,v)=(0,0)} & =-\lambda_i \\ \frac{\partial p^*(u,v)}{\partial v_i}|_{(u,v)=(0,0)} & =-\nu_i \end{aligned}$
这个时候，如果在 $p^*(0,0)$ 进行细微的调节，就可以利用泰勒展开，定量的得到细微调整的影响。

6 Alternatives

在研究优化问题，首先要关注的事情是限制是否可行。weak alternatives和strong alternatives通过对偶转换，考虑限制是否可行。

6.1 weak alternatives

$\left \{ \begin{aligned} & min \quad & 0 \\ & sub \quad & f_i(x) \leq 0, i=1,...m \\ & \quad & h_i(x) =0,i=1,...,p \end{aligned} \right.$
根据定义，问题可行和最小值 $p^*$ 存在下来关系
$p^*= \left \{ \begin{aligned} &0, \quad if \ x \ is \ feasible \\ &\infty, \quad else(空集的下确界是\infty) \end{aligned} \right.$

采用对偶变换
$\begin{aligned} g(\lambda, \nu) & = \mathop{inf} \limits_{x \in D} \{ L(x, \lambda, \nu) \} \\ & = \mathop{inf} \limits_{x \in D} \{ \sum \limits_i^m \lambda_i f_i(x) + \sum \limits_i^p \nu_ih_i(x) \} \end{aligned}$

转换而成的对偶问题
$\left \{ \begin{aligned} & \mathop{max} \limits_{\lambda, \nu} \quad & g(\lambda, \nu) \\ & sub \quad & \lambda \geq 0 \end{aligned} \right.$
注意 $g(\lambda, \nu)$ 是一个线性函数，对偶问题的最优解d*有
$d^*= \left \{ \begin{aligned} &0, \quad \forall \mathop{inf}\limits_{x \in D}\{ f_i(x) \}\leq0(通过取对应的\lambda_i为0） \\ &\infty, \quad \exists\mathop{inf}\limits_{x \in D}\{ f_i(x) \} > 0(通过取对应的\lambda_i为\infty） \end{aligned} \right.$

用集合的方式表示
$\exists\mathop{inf}\limits_{x \in D}\{ f_i(x) \} > 0 \quad \to \quad T:\{(\lambda \geq 0, g(\lambda, \nu)>0) \}$
重新写上面的形式：
$d^*= \left \{ \begin{aligned} &0, \quad T \ is \ infeasible \\ &\infty, \quad T \ is \ feasible \end{aligned} \right.$

设原问题的解集为 $S:\{ f_i(x) \leq 0, h_i(x)=0 \}$ ，集合S和集合T有下面的关系
$\begin{aligned} T \ is \ feasible \quad \to \quad S \ is \ infeasible \\ S \ is \ feasible \quad \to \quad T \ is \ infeasible \end{aligned}$

6.2 strong alternatives

考虑原问题满足强对偶条件，weak alternatives是否有加强的情况。
在这里插入图片描述
设原问题的解集为 $S:\{ f_i(x) \leq 0, Ax=b \}$ ，集合 $T:\{(\lambda \geq 0, g(\lambda, \nu)>0) \}$ 有下面的关系
$\begin{aligned} T \ is \ feasible \quad \leftrightarrow \quad S \ is \ infeasible \\ S \ is \ feasible \quad \leftrightarrow \quad T \ is \ infeasible \end{aligned}$
$\color{red}{条件得到了加强，现在根据S、T是infeasible就可以反向说明T、S是feasible}$
设原问题的解集为 $S:\{ f_i(x) < 0, Ax=b \}$ ，集合 $T:\{(\lambda \geq 0, \lambda \neq 0, g(\lambda, \nu)>0) \}$ 有下面的关系
$\begin{aligned} T \ is \ feasible \quad \leftrightarrow \quad S \ is \ infeasible \\ S \ is \ feasible \quad \leftrightarrow \quad T \ is \ infeasible \end{aligned}$

6.3 应用

Linear inequality
对于 $S:\{ Ax \leq b \}$ , 根据线性规划的对偶问题，可知 $T:\{ \lambda \geq 0, A^T\lambda=0, b^T\lambda<0\}$
也可以采用定义去推导：
$\begin{aligned} g(\lambda) & = \mathop{inf} \limits_{x \in D} \{ L(x, \lambda) \} \\ & = \mathop{inf} \limits_{x \in D} \{ \lambda^TAx-\lambda^Tb \} \\ & = \left \{ \begin{aligned} & -\lambda^Tb, \quad if \ A^T\lambda=0 \\ & - \infty, \quad else \end{aligned} \right. \end{aligned}$
$\color{red}重点关注，如何根据S 如果infesible这个条件，推出T$
对于 $S:\{ Ax < b \}$ ,如果值域 $\{ y=b-Ax| x \in R^n \}$ 和 ${ y>0 \}$ 不相交，则S是infesible。
从超平面分离的角度来看，
$\begin{aligned} \exists \lambda \in R^m \ and \ \alpha \in R, 使得 & \lambda ^Ty \leq \alpha , y \in dom \{ C \}; \\ & \lambda ^Ty \geq \alpha , y \in dom \{ D \}. \end{aligned}$
根据这个具体的问题
$\begin{aligned} & \mathop{max} \limits_{x \in R^n} \lambda ^T(b-Ax) \leq \alpha \to \lambda ^Tb \leq \alpha, \lambda^TA = 0 \\ & \mathop{min} \limits_{y>0} \lambda ^Ty \geq \alpha \to \alpha \leq 0 \\ & \lambda \geq 0, \lambda \neq 0 \end{aligned}$
整理出 $\{ \lambda ^Tb \leq 0; \lambda \geq 0, \lambda \neq 0 ,\lambda^TA = 0 \}$

在这里插入图片描述

intersection ellipsoid
$\begin{aligned} E_i &= \{ x | f_i(x) \leq0, f_i(x)=x^TA_ix+2b_i^Tx+c_i;A_i \in s_{++}^n \} \\ S & =\{ E_1 \bigcap E_2 \bigcap ... \bigcap E_n \} \end{aligned}$
通过定义计算T：
$\begin{aligned} g(\lambda) & = \mathop{inf} \limits_{x \in D} \{ L(x, \lambda) \} \\ & = \mathop{inf} \limits_{x \in D} \{ \sum \limits_i^m \lambda_ix^TA_ix+2\lambda_ib_i^Tx+\lambda_ic_i;A_i \in s_{++}^n \} \\ & = \mathop{inf} \limits_{x \in D} \{ x^T (\sum \limits_i^m \lambda_iA_i)x+2(\sum \limits_i^m\lambda_ib_i^T)x+(\sum \limits_i^m\lambda_ic_i) ;A_i \in s_{++}^n \} \\ & = \mathop{inf} \limits_{x \in D} \{ x^TA(\lambda)x+2B(\lambda)x+C(\lambda) ;A_i \in s_{++}^n \},\\ & \quad A(\lambda)= (\sum \limits_i^m \lambda_iA_i),B(\lambda) = (\sum \limits_i^m\lambda_ib_i^T)， C(\lambda)=(\sum \limits_i^m\lambda_ic_i) \\ &= -B^T(\lambda)A^{-1}(\lambda)B(\lambda)+C(\lambda), A(\lambda) >0, B\in R(A(\lambda)) \end{aligned}$
对 $L(x,\lambda)进行求导$
$\begin{aligned} \frac{dL}{dx} & = \sum2A(\lambda)x+2B(\lambda)=0 \to x=-A(\lambda)^{-1}B(\lambda) \end{aligned}$
利用strong alternative的结论，T
$T:\{ \lambda \geq 0, -B^T(\lambda)A^{-1}(\lambda)B(\lambda)+C(\lambda), A(\lambda) >0， A(\lambda) >0, B\in R(A(\lambda)) \}$

7 Equivalent refomulation

7.1 引入新变量

7.1.1 定义

$P_1) \left \{ \begin{aligned} & min \quad & f_0(Ax+b) \end{aligned} \right. \quad \to \quad D_1) \left \{ \begin{aligned} & max \quad & p^* \end{aligned} \right.$
替换之后的形式为,中间推导过程繁琐，并且也很简单，省略。
$P_2) \left \{ \begin{aligned} & \mathop{min} \limits_{x,y} \quad & f_0(x) \\ & sub \quad & y = Ax+b \end{aligned} \right. \quad \to \quad D_2) \left \{ \begin{aligned} & \mathop{max} \limits_{\nu} \quad & -f_0^*(\nu)+\nu^Tb \\ & sub \quad & \nu^TA=0 \end{aligned} \right.$

7.1.2 应用

log-sum exponential cost
$P_1) \left \{ \begin{aligned} & min \quad & log(\sum \limits_{i=1}^mexp(a_i^Tx+b_i)) \end{aligned} \right. \quad \to \quad D_1) \left \{ \begin{aligned} & max \quad & p^* \end{aligned} \right.$
同样的进行替换
$P_2) \left \{ \begin{aligned} & \mathop{min} \limits_{x,y} \quad & log(\sum \limits_{i=1}^mexp(y)\\ & sub \quad & y = Ax+b \end{aligned} \right. \quad \to \quad D_2) \left \{ \begin{aligned} & \mathop{max} \limits_{\nu} \quad & -f_0^*(\nu)+\nu^Tb \\ & sub \quad & \nu^TA=0 \end{aligned} \right.$
问题的关键变成了求共轭函数 $f_0^*(\nu)$ 。

7.2 引入新约束

$P_1) \left \{ \begin{aligned} & min \quad & f_0(Ax+b) \\ & \quad & f_i(Ax+b) \leq 0 \end{aligned} \right.$
替换之后的形式为,中间推导过程繁琐，并且也很简单，省略。
$P_2) \left \{ \begin{aligned} & \mathop{min} \limits_{x,y} \quad & f_0(y_0) \\ & sub \quad & f_i(y_i) \leq 0 \\ & \quad & Ax+b=y \end{aligned} \right. \quad \to \quad D_2) \left \{ \begin{aligned} & \mathop{max} \limits_{\nu} \quad & -f_0^*(\nu)- \sum \limits_{i=1}^m \lambda_if_i^*(\nu_i/\lambda_i)+\nu^Tb \\ & sub \quad & \nu^TA=0 \\ & \quad & \lambda \geq 0 \end{aligned} \right.$

7.3 implicit constraints

$P_2) \left \{ \begin{aligned} & \mathop{min} \limits_{x,y} \quad & c^Tx \\ & sub \quad & Ax=b \\ & \quad & l \leq x \leq u \end{aligned} \right. \quad \to \quad D_2) \left \{ \begin{aligned} & \mathop{max} \limits_{\nu} \quad & -\nu^Tb-\lambda_1^Tu+\lambda_2^Tl \\ & sub \quad & c+A^T\nu +\lambda_1-\lambda_2 = 0 \\ & \quad & \lambda_1 \geq 0, \lambda_2 \geq 0 \end{aligned} \right.$
进行转换之后
$P_2) \left \{ \begin{aligned} & \mathop{min} \limits_{x,y} \quad & f_0(x) = \left \{ \begin{aligned} & c^Tx, \quad l \leq x \leq u \\ & \infty, \quad else \end{aligned} \right. \\ & sub \quad & Ax=b \end{aligned} \right.$
通过定义去计算对偶问题
$\begin{aligned} g(\nu) &= \mathop{inf} \limits_{l \leq x \leq u} \{ c^Tx+\nu^T(Ax-b) \} \\ & = -\nu^Tb+\mathop{inf} \limits_{l \leq x \leq u} \{ (c+A^T\nu)^Tx \} \\ & = \left \{ \begin{aligned} & -\nu^Tb+(c+A^T\nu)^Tu, \quad c+A^T\nu \geq 0 \\ & -\nu^Tb+(c+A^T\nu)^Tl, \quad else \end{aligned} \right. \end{aligned}$

References

[1] https://www.youtube.com/watch?v=_muH67CqTME&list=PL-DDW8QIRjNOVxrU2efygBw0xADVOgpmw&index=17
[2] https://www.youtube.com/watch?v=tFWjzEQMq2g&list=PL-DDW8QIRjNOVxrU2efygBw0xADVOgpmw&index=18
[3] https://www.youtube.com/watch?v=JFbC2uoN7e4&list=PL-DDW8QIRjNOVxrU2efygBw0xADVOgpmw&index=20
[4] https://www.youtube.com/watch?v=COQtsv1SohQ&list=PL-DDW8QIRjNOVxrU2efygBw0xADVOgpmw&index=21
[5] https://zhuanlan.zhihu.com/p/259516554

expectmorata

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Convex optimization 4.2 ---Strong duality

1 Introduction在4.1节，我们回顾了对偶的原理、如何构建、作用，在4.2继续应用对偶条件，尤其是强对偶条件，帮助我们分析和解决优化问题。2 Certificate of suboptimality对于标准的优化问题：{minf0(x),x∈Rnsubfi(x)≤0,i=1,...mhi(x)=0,i=1,...,p\left \{\begin{aligned}& min \quad & f_0(x), x \in R^n \\& sub \quad &a
复制链接

扫一扫

专栏目录