Lagrangian乘子法与对偶上升法（Dual Ascent）

最新推荐文章于 2023-01-28 16:13:05 发布

BigYouYou

最新推荐文章于 2023-01-28 16:13:05 发布

阅读量4.7k

点赞数 10

分类专栏：数学

本文链接：https://blog.csdn.net/qq_30565883/article/details/104160827

版权

数学专栏收录该内容

8 篇文章 12 订阅

订阅专栏

Lagrangian乘子法

考虑等式约束的凸优化问题：
$\min f(x) \ s.t.\ Ax=b \tag{1}$
其中向量 $x\in\mathbb{R}^n$ ，矩阵 $A\in \mathbb{R}^{m\times n}$ ，函数 $f(x):\mathbb{R}^n→\mathbb{R}$ 是凸函数。
Lagrangian乘子法将其变为无约束最小化问题，其Lagrangian目标函数为：
$L(x,\lambda)=f(x)+\lambda^T(Ax-b)$
注意，到这里Lagrangian乘子法就算是结束了。到这一步之后，可以令 $L(x,\lambda)=0$ ，求出一些 $x$ ，然后取使得 $f (x)$ 最小的 $x$ 值作为最终解，因为一阶导为0是一个必要条件而非充要条件，可以参见这篇文章

对偶上升法

对于 $L(x,\lambda)=0$ 难以解出等的情况，可以用对偶上升法来做优化。
原始优化问题的对偶目标函数为：
$g(\lambda)=\inf_x L(x,\lambda)=-f^*(-A^T\lambda)-b^T\lambda$
这里的对偶目标函数就是我们一般讲的对偶问题，是一个关于Lagrangian乘子的问题， $\inf$ 表示最大下界，正是对偶问题的最优化目标。而第二个等号成立的原因是，线性约束下凸函数的对偶函数可以用其共轭函数表示。 $f (x) 的$ 共轭函数 $f^*(y)$ 定义为：
$f^*(y)=\sup_{x\in D}(y^Tx-f(x))$
其中 $y\in \mathbb{R}^n$ ， $\sup$ 表示最小上界。下面证明 $g(\lambda)=-f^*(-A^T\lambda)-b^T\lambda$ ：
$g(\lambda)=\inf_x L(x,\lambda)=\inf_x (f(x)+\lambda^T(Ax-b))\\ =-\lambda^Tb+\inf_x(f(x)+\lambda^TAx)（将与x无关的项提取出）\\ =-\lambda^Tb-\sup_x(-f(x)-\lambda^TAx)（函数最大下界等于取反之后的最小上界）\\ =-\lambda^Tb-f^*(-A^T\lambda)（共轭函数的定义）\\ =-b^T\lambda-f^*(-A^T\lambda)（得证）$
因此借助Lagrangian乘子法，原始等式约束极小化问题变成了对偶极大化问题：
$\max_{\lambda}g(\lambda)=-f^*(-A^T\lambda)-b^T\lambda \tag{2}$
对偶上升法采用了梯度上升法来求解公式 $(2)$ 。假设强对偶性满足，则原问题最优解与对偶问题最优解相同。此时公式 $(1)$ 的最优解点 $x^*$ 可以由下式恢复：
$x^*=\argmin_xL(x,\lambda^*)$
对偶上升法主要由两个步骤组成：
$x_{k+1}=\argmin_xL(x,\lambda_k)\\ \lambda_{k+1}=\lambda_k+\mu_k\frac{\partial L(x,\lambda)}{\partial \lambda}|_{x=x_{k+1},\lambda=\lambda_k}=\lambda_k+\mu_k(Ax_{k+1}-b)$
这里的 $\mu_k$ 为更新 $\lambda$ 的步长。