拉格朗日对偶性

最新推荐文章于 2021-01-14 06:31:43 发布

Zjhao666

最新推荐文章于 2021-01-14 06:31:43 发布

阅读量426

点赞数

文章标签：拉格朗日对偶性

本文链接：https://blog.csdn.net/Zjhao666/article/details/88389125

版权

拉格朗日对偶性

文章目录

拉格朗日对偶性

在约束规划问题中，常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题，通过解对偶问题而得到原始问题的解。该方法应用在许多统计学习方法中，例如，最大熵模型与支持向量机。这里简要叙述拉格朗日对偶性的主要概念和结果。

1 原始问题

假设 $f(x),c_i(x),h_j(x)$ 是定义在 $R^n$ 上的连续可微函数。考虑约束最优化问题。
$\min_{x\in R^n}f(x) \tag{1.1}$
$\quad c_i(x)\leq 0, i=1,2,...,k \tag{1.2}$
$h_j(x)=0,j=1,2,...,l \tag{1.3}$
称次约束最优化问题为原始最优化问题或原始问题。
首先，引进广义拉格朗日函数(generalized Lagrange duality)
$L(x,\alpha,\beta)=f(x)+\Sigma_{i=1}^k \alpha_i c_i(x)+\Sigma_{j=1}^l \beta_j h_j(x) \tag{1,4}$
这里， $x=\left( x^{(1)},x^{(2)},...,x^{(n)} \right)^T\in R^n$ ， $\alpha_i,\beta_j$ 是拉格朗日乘子， $\alpha_i \geq 0$ 。考虑 $x$ 的函数：
$\theta_P (x)=\max_{\alpha,\beta:\alpha_i \geq 0}L(x,\alpha,\beta) \tag{1.5}$
这里，下标 $P$ 表示原始问题。
假设给定某个 $x$ 。如果 $x$ 违反原始问题的约束条件，即存在某个 $i$ 使得 $c_i(w)>0$ 或者存在某个 $j$ 使得 $h_j(w)\ne 0$ ，那么就有
$\theta_P(x)=\max_{\alpha,\beta:\alpha_i \geq 0} \left[f(x)+\Sigma_{i=1}^k \alpha_i c_i(x) + \Sigma_{j=1}^l \beta_j h_j(x) \right]=+\infty \tag{1.6}$
因为若某个 $i$ 使约束 $c_i(x)>0$ ，则可令 $\alpha_i \to +\infty$ ，若某个 $j$ 使 $h_j(x)\ne =0$ ，则可令 $\beta_j$ 使 $\beta_j h_j(x) \to \infty$ ，而将其余各 $\alpha_i,\beta_j$ 取为0。
相反的，如果 $x$ 满足约束条件式(1.2)和(1.3)，则由式(1.5)和(1.4)可知， $\theta_P(x)=f(x)$ 。因此
$\theta_P(x)=\begin{cases} f(x), x满足原始问题约束 \\ +\infty, 其他 \end{cases} \tag{1.7}$
所以如果考虑极小化问题
$\min_x\theta_P(x)=\min_x\max_{\alpha,\beta:\alpha_i \geq 0}L(x,\alpha,\beta) \tag{1.8}$
它是与原始最优化问题(1.1)~(1.3)等价的，即它们有相同的解。问题 $\min_x\max_{\alpha,\beta:\alpha_i \geq 0}L(x,\alpha,\beta)$ 称为广义拉格朗日的极小极大问题。这样一来，就把原始最优化问题表示为广义拉格朗日的极小极大问题。为了方便，定义原始问题的最优值
$p^*=\min_x\theta_P(x) \tag{1.9}$
称为原始问题的值。

2 对偶问题

定义
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta) \tag{1.10}$
再考虑极大化 $\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta)$ ，即
$\max_{\alpha,\beta:\alpha \geq 0}\theta_D(\alpha,\beta)=\max_{\alpha,\beta:\alpha \geq 0}\min_xL(x,\alpha,\beta) \tag{1.11}$
可以将广义拉格朗日问题的极大极小问题表示为约束最优化问题：
$\max_{\alpha,\beta}\theta_D(\alpha,\beta)=\max_{\alpha,\beta}\min_xL(x,\alpha,\beta) \tag{1.12}$
$\quad \alpha_i \geq 0, i=1,2,...,k \tag{1.13}$
称为原始问题的对偶问题。定义对偶问题的最优值
$d^*=\max_{\alpha,\beta:\alpha \geq 0}\theta_D(\alpha,\beta) \tag{1.14}$
称为对偶问题的值。

3 原始问题和对偶问题的关系

下面讨论原始问题和对偶问题的关系。

定理 1.1 若原始问题和对偶问题都有最优值，则
$d^*=\max_{\alpha,\beta:\alpha_i \geq 0}\min_xL(x,\alpha,\beta) \leq \min_x\max_{\alpha,\beta:\alpha_i \geq 0}L(x,\alpha,\beta)=p^* \tag{1.15}$

证明由式(1.12)和式(1.5)，对任意的 $\alpha,\beta和x$ ，有
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta)\leq L(x,\alpha,\beta)\leq \max_{\alpha,\beta:\alpha_i \geq 0}L(x,\alpha,\beta)=\theta_P(\alpha,\beta) \tag{1.16}$
即
$\theta_D(\alpha,\beta)\leq \theta_P(x) \tag{1.17}$
由于原始问题和对偶问题均有最优值，所以
$\max_{\alpha,\beta:\alpha_i \geq 0}\theta_D(\alpha,\beta) \leq \min_x \theta_P(x) \tag{1.18}$
即
$d^*=\max_{\alpha,\beta:\alpha_i \geq 0}\min_xL(x,\alpha,\beta) \leq \min_x\max_{\alpha,\beta:\alpha_i \geq 0}L(x,\alpha,\beta)=p^* \tag{1.19}$

推论 1.1 设 $x^*和\alpha^*,\beta^*$ 分别是原始问题(1.1)-(1.3)和对偶问题(1.12)-(1.13)的可行解，并且 $d^*=p^*$ ，则 $x^*和\alpha^*,\beta^*$ 分别是原始问题和对偶问题的最优解。

在某些条件下，原始问题和对偶问题的最优值相等，即 $d^*=p^*$ 。这时可以用解对偶问题替代解原始问题。下面以定理的形式叙述有关的重要结论而不予证明。

定理 1.2 考虑原始问题(1.1)-(1.3)和对偶问题(1.12)-(1.13)。假设函数 $f(x)和c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数；并且假设不等式约束 $c_i(x)$ 是严格可行的，即存在 $x$ ，对所有 $i$ 有 $c_i(x)<0$ ，则存在 $x^*,\alpha^*,\beta^*$ ，使 $x *$ 是原始问题的解， $\alpha^*,\beta^*$ 是对偶问题的解，并且
$p^*=d^*=L(x^*,\alpha^*,\beta^*) \tag{1.20}$

定理 1.3 对原始问题(1.1)-(1.3)和对偶问题(1.12)-(1.13),假设函数 $f(x)和c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数,并且不等式约束 $c_i(x)$ 是严格可行的，则 $x^*和\alpha^*，\beta^*$ 分别是原始问题和对偶问题的解的充分必要条件是 $x^*,\alpha^*,\beta^*$ 满足下面的 $K K T$ 条件：
$\nabla_xL(x^*,\alpha^*,\beta^*)=0 \tag{1.21}$
$\alpha_i^* c_i(x^*)=0, i=1,2,...,k \tag{1.22}$
$c_i(x^*) \leq 0, i=1,2,...,k \tag{1.23}$
$\alpha_i^* \geq 0, i=1,2,...,k \tag{1.24}$
$h_j(x^*)=0 j=1,2,...,l \tag{1.25}$
特别指出，式(1.24)称为 $K K T$ 的对偶互补条件。由此条件可知：若 $\alpha_i^*>0$ ，则 $c_i(x^*)=0$