优化问题-Lagrange对偶问题、KKT条件，对偶优化、ADMM优化

昨晚学会了通信

于 2023-08-05 20:26:00 发布

阅读量508

点赞数

分类专栏：通信优化算法文章标签：算法

本文链接：https://blog.csdn.net/qq_33668008/article/details/132119023

版权

通信优化算法专栏收录该内容

7 篇文章 89 订阅

订阅专栏

文章目录

Lagrange对偶问题
Karush-Kuhn-Tucker(KKT)条件
Lagrange的对偶优化
ADMM优化

Lagrange对偶问题

优化问题对偶问题定义为：
$\begin{array}{rl} \max _{(\boldsymbol{\lambda}, \boldsymbol{\nu}) \in \operatorname{dom} g} & g(\boldsymbol{\lambda}, \boldsymbol{\nu}) \\ \text { s.t. } & \boldsymbol{\lambda} \succeq \mathbf{0} \end{array}$

其最优值为： $d^{\star}=\sup \left\{g(\boldsymbol{\lambda}, \boldsymbol{\nu}) \mid \boldsymbol{\lambda} \succeq \mathbf{0}, \boldsymbol{\nu} \in \mathbb{R}^p\right\}$ 。根据原始问题的最优值是其对偶函数的上界可知， $d^{\star}$ 是原始问题最优值 $p^{\star}$ 的一个下届。

弱对偶性： $d^{\star} \leqslant p^{\star}$ ，即： $d^{\star}=\sup _{\boldsymbol{\lambda} \succeq \mathbf{0}} \inf _{\mathbf{x}} \mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}) \leqslant \inf _{\mathbf{x}} \sup _{\boldsymbol{\lambda} \succeq \mathbf{0}} \mathcal{L}(\mathbf{x}, \boldsymbol{\lambda})=p^{\star}$
强对偶性： $d^{\star}=p^{\star}$ ，即： $d^{\star}=\sup _{\boldsymbol{\lambda} \succeq \mathbf{0}} \inf _{\mathbf{x}} \mathcal{L}(\mathbf{x}, \boldsymbol{\lambda})=\mathcal{L}\left(\mathbf{x}^{\star}, \boldsymbol{\lambda}^{\star}\right)=\inf _{\mathbf{x}} \sup _{\boldsymbol{\lambda} \succeq \mathbf{0}} \mathcal{L}(\mathbf{x}, \boldsymbol{\lambda})=p^{\star}$ （对于凸问题往往具有强对偶性，其强对偶性的充分条件：Slater条件）

对于强对偶问题，其原最优解与对偶最优解之间存在一个重要关系式：

$g\left(\boldsymbol{\lambda}^{\star}, \boldsymbol{\nu}^{\star}\right)=\mathcal{L}\left(\mathbf{x}^{\star}, \boldsymbol{\lambda}^{\star}, \boldsymbol{\nu}^{\star}\right)=f_0\left(\mathbf{x}^{\star}\right)$

与傅里叶变换相比，因为存在 $d^{\star} \leqslant p^{\star}$ ，原问题与对偶问题更多地表现为“垂直”方向上的等价，如下：

原始问题
$p^{\star}=\min \left\{f_0(\mathbf{x}) \mid f_i(\mathbf{x}) \leqslant 0, h_j(\mathbf{x})=0, i=1, \ldots, m, j=1, \ldots, p, \mathbf{x} \in \mathcal{D}\right\} \geqslant d^{\star}$
( $\mathcal{D}$ 是原始问题定义域)
对偶问题
$d^{\star}=\max \left\{g(\boldsymbol{\lambda}, \boldsymbol{\nu})=\inf _{\mathbf{x} \in \mathcal{D}} \mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}, \boldsymbol{\nu})>-\infty \mid \boldsymbol{\lambda} \succeq \mathbf{0}, \boldsymbol{\lambda} \in \mathbb{R}^m, \boldsymbol{\nu} \in \mathbb{R}^p\right\} \leqslant p^{\star}$
( $\mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}, \boldsymbol{\nu})=f_0(\mathbf{x})+\sum_{i=1} \lambda_i f_i(\mathbf{x})+\sum_{i=1} \nu_i h_i(\mathbf{x})$ )

无论原问题是否为凸，其对偶问题一定为凸；并且当原问题为凸且 $f_0(\mathbf{x})$ 是闭的，所有 $f_i(\mathbf{x})$ 都是非光滑或可谓的，则该问题的双对偶就是原问题本身

由强对偶性可以得到的几个重要结论：

（最大最小不等式）对于任意的 $\mathbb{R}^n \times \mathbb{R}^m, W \subseteq \mathbb{R}^n$ 和 $\subseteq \mathbb{R}^m$ ，有：
$\sup _{\boldsymbol{z} \in Z} \inf _{\boldsymbol{w} \in W} f(\boldsymbol{w}, \boldsymbol{z}) \leqslant \inf _{\boldsymbol{w} \in W} \sup _{\boldsymbol{z} \in Z} f(\boldsymbol{w}, \boldsymbol{z})$
若 $f$ 是某个具有零对偶间隙的优化问题的Lagrange函数，则上述等号成立。
（互补松弛条件）：令 $\mathbf{x}^{\star}$ 和 $\left(\boldsymbol{\lambda}^{\star}, \nu^{\star}\right)$ 分别是原问题和其对偶问题的最优解，则 $f_i\left(\mathbf{x}^{\star}\right) \leqslant 0, i=1, \ldots, m, h_j\left(\mathbf{x}^{\star}\right)=0, j=1, \ldots, p$ , 且 $\boldsymbol{\lambda}^{\star} \succeq \mathbf{0}_m$ 。当强对偶成立时，一定满足：
$\lambda_i^{\star} f_i\left(\mathbf{x}^{\star}\right)=0, i=1, \ldots, m$

Karush-Kuhn-Tucker(KKT)条件

假设 $f_0, f_1, \ldots, f_m, h_1, \ldots, h_p$ 可微，则优化问题（不一定为凸）的原最优解 $\mathbf{x}^{\star}$ 和对偶问题最优解 $\left(\lambda^{\star}, \nu^{\star}\right)$ 所对应的KKT条件如下：
$\begin{aligned} \nabla f_0\left(\mathbf{x}^{\star}\right)+\sum_{i=1}^m \lambda_i^{\star} \nabla f_i\left(\mathbf{x}^{\star}\right)+\sum_{i=1}^p \nu_i^{\star} \nabla h_i\left(\mathbf{x}^{\star}\right) & =0 \\ f_i\left(\mathbf{x}^{\star}\right) & \leqslant 0, i=1, \ldots, m \\ h_i\left(\mathbf{x}^{\star}\right) & =0, i=1, \ldots, p \\ \lambda_i^{\star} & \geqslant 0, i=1, \ldots, m \\ \lambda_i^{\star} f_i\left(\mathbf{x}^{\star}\right) & =0, i=1, \ldots, m \end{aligned}$

KKT条件在求解优化问题中的作用：

对于具有强对偶性的问题：KKT条件是最优性的必要条件
对于不具有强对偶性的问题：在适当假设下，KKT条件是局部最优的必要条件
对于具有强对偶性的图问题：KKT条件是最优性的虫咬条件。即：当且仅当KKT条件成立时， $\mathbf{x}^{\star}$ 和 $\left(\lambda^{\star}, \nu^{\star}\right)$ 分别为原最优和对偶最优。

注：如果目标函数和所有约束都是实值函数，而未知变量 $\mathbf{x}$ 是复数，那么KKT条件中，此时的梯度定义为· $\nabla_{\mathbf{x}} \mathcal{L}=2 \nabla_{\mathbf{x}^*} \mathcal{L}$

Lagrange的对偶优化

KKT条件是直接求解凸优化问题的主要方法，当凸问题KKT条件过于复杂而不能给出解析解时，可以通过利用对偶分解，而找到原问题的和对偶问题的最优解，该方法交替更新原变量和对偶变量直到收敛。

对于凸问题，其目标函数和所有约束条件均可可微并满足强对偶性时，如果 $\mathbf{x}^{\star}$ 是原可行解，则
$\left(\mathbf{x}^{\star}, \boldsymbol{\lambda}^{\star}, \boldsymbol{\nu}^{\star}\right)=\arg \left\{\max _{\boldsymbol{\lambda} \succeq \mathbf{0}, \boldsymbol{\nu}} \min _{\mathbf{x} \in \mathcal{D}} \mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}, \boldsymbol{\nu})\right\}$
是一个原-对偶最优解。

该式子为求解原问题的对偶分解，或对偶优化方法。对于给定的 $(\boldsymbol{\lambda} \succeq \mathbf{0}, \boldsymbol{\nu})$ ，式中内层最小化是关于 $\mathbf{x}$ 的凸函数，外层最大化是关于 $(\lambda, \nu)$ 的凹函数。但，问题的规模可能会变得更大，这是在寻找原-对偶最优解需要着重考虑的一个问题。

ADMM优化

对偶优化是无线通信和网络设计分布式和协作式算法的一种有效算法，交替方向乘子法（ADMM）是一种有名的分布式凸优化技术。

考虑如下凸优化问题：
$\begin{aligned} \min _{\mathbf{x} \in \mathbb{R}^n, \mathbf{z} \in \mathbb{R}^m} & f_1(\mathbf{x})+f_2(\mathbf{z}) \\ \text { s.t. } & \mathbf{x} \in \mathcal{S}_1, \mathbf{z} \in \mathcal{S}_2 \\ & \mathbf{z}=\mathbf{A} \mathbf{x} \end{aligned}$

$f_1: \mathbb{R}^n \mapsto \mathbb{R}$ 和 $f_2: \mathbb{R}^m \mapsto \mathbb{R}$ 是凸函数， $\mathbf{A}$ 是 $\times n$ 矩阵， $\mathcal{S}_1 \subset \mathbb{R}^n$ 和 $\mathcal{S}_2 \subset \mathbb{R}^m$ 是非空凸集。

ADMM考虑如下的惩罚增广问题：
$\begin{aligned} \min _{\mathbf{x} \in \mathbb{R}^n, \mathbf{z} \in \mathbb{R}^m} & f_1(\mathbf{x})+f_2(\mathbf{z})+\frac{c}{2}\|\mathbf{A} \mathbf{x}-\mathbf{z}\|_2^2 \\ \text { s.t. } & \mathbf{x} \in \mathcal{S}_1, \mathbf{z} \in \mathcal{S}_2 \\ & \mathbf{z}=\mathbf{A} \mathbf{x} \end{aligned}$

其对偶问题为：
$\max _{\boldsymbol{\nu} \in \mathbb{R}^m} g(\boldsymbol{\nu})$

对偶函数定义为： $g(\boldsymbol{\nu})=\min _{\mathbf{x} \in \mathcal{S}_1, \mathbf{z} \in \mathcal{S}_2}\left\{f_1(\mathbf{x})+f_2(\mathbf{z})+\frac{c}{2}\|\mathbf{A} \mathbf{x}-\mathbf{z}\|_2^2+\boldsymbol{\nu}^{\mathrm{T}}(\mathbf{A} \mathbf{x}-\mathbf{z})\right\}$

其中 $\boldsymbol{\nu}$ 是惩罚增广问题等式约束的对偶变量，当 $\boldsymbol{\nu}$ 固定时，对偶函数中的优化问题时关于 $(\mathbf{x}, \mathbf{z})$ 的凸问题，对偶函数 $g(\boldsymbol{\nu})$ 非光滑，可以通过投影次梯度方法更新对偶变量 $\boldsymbol{\nu}$ 。在标准的对偶优化问题中，通常是先更新 $(\mathbf{x}, \mathbf{z})$ 然后更新对偶变量 $\boldsymbol{\nu}$ 。

对于ADMM，在第 $(q + 1)$ 次迭代时，求解一下两个图的子问题，以更新 $(\mathbf{x}, \mathbf{z})$ ：
$\begin{aligned} & \mathbf{z}(q+1)=\arg \min _{\mathbf{z} \in \mathcal{S}_2}\left\{f_2(\mathbf{z})-\boldsymbol{\nu}(q)^{\mathrm{T}} \mathbf{z}+\frac{c}{2}\|\mathbf{A} \mathbf{x}(q)-\mathbf{z}\|_2^2\right\} \\ & \mathbf{x}(q+1)=\arg \min _{\mathbf{x} \in \mathcal{S}_1}\left\{f_1(\mathbf{x})+\boldsymbol{\nu}(q)^{\mathrm{T}} \mathbf{A} \mathbf{x}+\frac{c}{2}\|\mathbf{A} \mathbf{x}-\mathbf{z}(q+1)\|_2^2\right\} \end{aligned}$
总结如下：
在这里插入图片描述

对于任意大于零的惩罚参数 $c$ ，ADMM一定可以保证收敛到一个最优解，收敛速率与 $c$ 有关，但目前没有理论可以指导 $c$ 的选择，从而使得收敛速度加快。

昨晚学会了通信

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
优化问题-Lagrange对偶问题、KKT条件，对偶优化、ADMM优化

KKT条件是直接求解凸优化问题的主要方法，当凸问题KKT条件过于复杂而不能给出解析解时，可以通过利用对偶分解，而找到原问题的和对偶问题的最优解，该方法交替更新原变量和对偶变量直到收敛。对偶优化是无线通信和网络设计分布式和协作式算法的一种有效算法，交替方向乘子法（ADMM）是一种有名的分布式凸优化技术。根据原始问题的最优值是其对偶函数的上界可知，是复数，那么KKT条件中，此时的梯度定义为·次迭代时，求解一下两个图的子问题，以更新。在标准的对偶优化问题中，通常是先更新。是惩罚增广问题等式约束的对偶变量，当。
复制链接

扫一扫

专栏目录