优化方法之朗格朗日对偶性

最新推荐文章于 2025-01-12 17:05:13 发布

鼹鼠的胡须

最新推荐文章于 2025-01-12 17:05:13 发布

阅读量2.7k

点赞数

分类专栏：数学机器学习文章标签：优化机器学习

本文链接：https://blog.csdn.net/qq_23968185/article/details/50484409

版权

机器学习同时被 2 个专栏收录

22 篇文章 3 订阅

订阅专栏

数学

7 篇文章 0 订阅

订阅专栏

学习最大熵模型和支持向量机的过程中，涉及优化中对偶性的相关内容，在这里做个小结巩固一下(参考自《统计学习方法》)。拉格朗日对偶性常用来解决约束最优化问题，其思想是将原始问题转换为对偶问题，通过解对偶问题间接求出原始问题。

1.原始问题

设 $f(x),c_{i}(x),h_j(x)$ 是定义在 $\mathbb R^n$ 上的连续可微函数，则称约束最优化问题：

min x \in R n f (x) s . t . c i (x) \leq 0, i = 1, 2, \dots, k h j (x) = 0, j = 1, 2, \dots, l

$\begin{align*} &\min\limits_{x\in\mathbb R^n} \quad f(x)\\ & \begin{array}{r@{\quad}r@{}l@{\quad}l} s.t.&c_i(x)\leq0, i=1,2,\ldots,k\\ &h_{j}(x)=0,j=1,2,\ldots,l \\ \end{array} \end{align*}$
为原始最优化问题或原始问题。引进广义拉格朗日函数

L (x, α, β) = f (x) + \sum i = 1 k α i c i (x) + \sum j = 1 l β j h j (x)

$L(x,\alpha,\beta)=f(x)+\sum\limits_{i=1}^k\alpha_ic_i(x)+\sum\limits_{j=1}^l\beta_jh_j(x)$
这里，

x=(x(1),x(x),…,x(n))T∈Rn,αi,βj $x=(x^{(1)},x^{(x)},\ldots,x^{(n)})^T\in\mathbb R^n,\alpha_i,\beta_j$ 是拉格朗日乘子，

αi≥0 $\alpha_i\geq0$ .考虑

x $x$ 的函数：

θ p (x) = max α, β : α i \geq 0 L (x, α, β)

$\theta_p(x)=\max\limits_{\alpha,\beta:\alpha_i\geq0} L(x,\alpha,\beta)$
其中，下标P表示原始问题。由反证法易知：

θ p (x) = {f (x), x 满 足 原 始 问 题 约 束 + \infty, 其 他

$\theta_p(x)= \begin{cases} f(x) ,x满足原始问题约束\\ +\infty,其他 \end{cases}$ 那么，极小化问题

min x max α, β : α i \geq 0 L (x, α, β)

$\min\limits_{x}\max\limits_{\alpha,\beta:\alpha_i\geq0} L(x,\alpha,\beta)$ 与原始问题是等价的。即，我们把原始问题表示为广义拉格朗日函数的极小极大问题。原始问题的最优值：

p * = min x θ P (x)

$p^*=\min_x\theta_P(x)$ 称为原始问题的值。

2.对偶问题

我们定义

θ D (α, β) = min x L (x, α, β)

$\theta_D(\alpha,\beta)=\min\limits_{x}L(x,\alpha,\beta)$ 则称

max α, β : α i \geq 0 θ D (α, β) = max α, β : α i \geq 0 min x L (x, α, β)

$\max\limits_{\alpha,\beta:\alpha_i\geq0}\theta_D(\alpha,\beta)=\max\limits_{\alpha,\beta:\alpha_i\geq0} \min\limits_{x}L(x,\alpha,\beta)$ 为广义拉格朗日函数的极大极小问题。将上式表示为约束最优化问题：

max α, β θ D (α, β) = max α, β min x L (x, α, β) s . t . α i \geq 0, i = 1, 2, \dots, k

$\begin{align*} &\max\limits_{\alpha,\beta}\quad\theta_D(\alpha,\beta)=\max\limits_{\alpha,\beta} \min\limits_{x}L(x,\alpha,\beta) \\ & \begin{array}{r@{\quad}r@{}l@{\quad}l} s.t. \quad\alpha_i\geq0,i=1,2,\ldots,k \end{array} \end{align*}$ 称上式为原始问题的对偶问题。将对偶问题的最优值：

d * = max α, β : α i \geq 0 θ D (α, β)

$d^*=\max\limits_{\alpha,\beta:\alpha_i\geq0}\theta_D(\alpha,\beta)$ 称为对偶问题的值。

3.解的关联

定理1 若原始问题和对偶问题都有最优值，则

d * = max α, β : α i \geq 0 θ D (α, β) \leq min x max α, β : α i \geq 0 L (x, α, β) = p *

$d^*=\max\limits_{\alpha,\beta:\alpha_i\geq0}\theta_D(\alpha,\beta)\leq\min\limits_{x}\max\limits_{\alpha,\beta:\alpha_i\geq0} L(x,\alpha,\beta)=p^*$
推论2 设

x∗ $x^*$ 和

α∗,β∗ $\alpha^*,\beta^*$ 分别为原始问题和对偶问题的可行解，并且

d∗=q∗ $d^*=q^*$ ，则

x∗ $x^*$ 和

α∗,β∗ $\alpha^*,\beta^*$ 分别是原始问题和对偶问题的最优解。

特别地，若原始问题和对偶问题的最优解相等，我们可以用解对偶问题替代原始问题。

定理3对于原始问题和对偶问题，假设函数 $f(x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数（一阶多项式函数），并且假设不等式约束 $c_i(x)$ 的不等式严格可行，则存在 $x^*,\alpha^*,\beta^*$ ，使 $x^*$ 是原始问题的解， $\alpha^*,\beta^*$ 是对偶问题的解，并且 $p^*=d^*$ 。

定理4对原始问题和对偶问题，假设函数 $f(x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数，并且假设不等式约束 $c_i(x)$ 的不等式严格成立，则 $x^*$ 和 $\alpha^*,\beta^*$ 分别是原始问题和对偶问题的解的充要条件是 $x^*,\alpha^*,\beta^*$ 满足KKT条件。