统计学习方法拉格朗日对偶性

最新推荐文章于 2024-07-08 22:12:26 发布

Air浩瀚

最新推荐文章于 2024-07-08 22:12:26 发布

阅读量99

点赞数

分类专栏： # ML 文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/Ryansior/article/details/133996337

版权

ML 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章目录

统计学习方法拉格朗日对偶性

统计学习方法拉格朗日对偶性

读李航的《统计学习方法》时，关于拉格朗日对偶性的笔记。

在许多统计学习的约束最优化问题中，例如最大熵模型和支持向量机，常常使用拉格朗日对偶性（Lagrange duality）将原始问题转换为对偶问题，通过求解对偶问题而得到原始问题的解。

原始问题

假设 $f (x)$ ， $c_i(x)$ 和 $h_j(x)$ 是定义在 $R^n$ 上的连续可微函数，考虑约束最优化问题（记为 $P$ ）：
$\begin{aligned} \min_{x\in\R^n}&\, f(x) \\ \text{s.t.}&\,\, c_i(x)\leq 0,\quad i=1,2,\cdots,k \\ &\,\, h_j(x)=0, \quad j=1,2,\cdots,l \end{aligned}$
它的 Lagrangian 为：
$L(x,\alpha,\beta)=f(x)+\sum_{i=1}^{k}\alpha_ic_i(x)+\sum\limits_{j=1}^l \beta_jh_j(x)$
其中 $\alpha_i \geq 0$ ；以下是一个关于 $x$ 的函数，下标 $P$ 代表原始问题：
$\theta_P(x)=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}L(x,\alpha,\beta)$
可以得到该函数的性质：
$\theta_P(x)=\left\{ \begin{array}{ll} f(x), & x\text{ 满足原始问题的约束} \\ +\infty, &\text{else} \end{array} \right.$

如果 $x$ 不满足原始问题的约束，即存在某个 $i$ 使得 $c_i(x)\gt 0$ 或者存在某个 $j$ 使得 $h_j(x)\not=0$ ，那么就有：
- 若存在某个 $i$ 使得 $c_i(x)\gt 0$ ：我们令 $\alpha_i\to+\infty$ ，则 $\theta_P(\theta)\to+\infty$ ；
- 若存在某个 $j$ 使得 $h_j(x)\not=0$ ：我们令 $\beta_j$ 取和 $h_j(x)$ 相同的符号，并且令 $|\beta_j|\to+\infty$ ，即 $\beta_jh_j(x)\to+\infty$ ，则 $\theta_P(\theta)\to+\infty$ ；

$\theta_P(x)=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\left[f(x)+\sum_{i=1}^{k}\alpha_ic_i(x)+\sum\limits_{j=1}^l \beta_jh_j(x)\right]=+\infty$

若 $x$ 满足原始问题的约束，则 $\sum\limits_{i=1}^{k}\alpha_ic_i(x)\leq 0$ ， $\sum\limits_{j=1}^l \beta_jh_j(x)=0$ ，因此：

$\theta_P(x)=f(x)$

基于 $\theta_P(x)$ 的性质，我们考虑其极小化问题：
$\min_{x}\theta_P(x)=\min_{x}\max\limits_{\alpha,\beta;\,\alpha_i\geq0}L(x,\alpha,\beta)$
它与原始问题 $P$ 是等价的（因为 $x$ 满足约束条件时， $\theta_P(x)$ 和 $f (x)$ 是等价的）。以上这个问题称为广义拉格朗日函数的极小极大问题。我们定义原始问题的最优值：
$p^\ast=\min_x\theta_P(x)$
称为原始问题的值。

对偶问题

以下是一个关于 $\alpha$ 和 $\beta$ 的函数，下标 $D$ 代表对偶问题：
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta)$
再考虑 $\theta_D(\alpha,\beta)$ 的极大化问题：
$\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\theta_D(\alpha,\beta)=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\min_xL(x,\alpha,\beta)$
该问题称为广义拉格朗日函数的极大极小问题，其还可以表示为约束最优化问题：
$\begin{aligned} \max\limits_{\alpha,\beta;\,\alpha_i\geq0}&\, \theta_D(\alpha,\beta)=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\min_xL(x,\alpha,\beta) \\ \text{s.t.}&\,\, \alpha_i\geq 0, \quad i=1,2,\cdots,k \end{aligned}$
极大极小问题称为原始问题的对偶问题，定义对偶问题的最优值为：
$d^\ast=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\theta_D(\alpha,\beta)$
称为对偶问题的值。

原始问题和对偶问题的关系

Th C.1：若原始问题和对偶问题都有最优值，则对偶问题的最优值小于等于原始问题的最优值：
$d^\ast \leq p^\ast$
证明：由前面的定义得，对于任意的 $\alpha$ ， $\beta$ ， $x$ ，有：
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta)\leq L(x,\alpha,\beta)\leq\max\limits_{\alpha,\beta;\,\alpha_i\geq0}L(x,\alpha,\beta)=\theta_P(x)$
即：
$\theta_D(\alpha,\beta)\leq\theta_P(x)$
即：
$d^\ast=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\theta_D(\alpha,\beta)\leq\min_x\theta_P(x)=p^\ast$
推论 C.1：设 $x^\ast$ 和 $\alpha^\ast$ ， $\beta^\ast$ 分别是原始问题和最优问题的可行解（即满足约束条件），且 $d^\ast=p^\ast$ ，则 $x^\ast$ 和 $\alpha^\ast$ ， $\beta^\ast$ 分别是原始问题和最优问题的最优解。

Th C.2：对于原始问题和对偶问题，假设：

函数 $f (x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数；
存在 $x$ ，对于任意 $i$ ，满足 $c_i(x)\lt 0$ （即不等式约束 $c_i(x)$ 严格可行）；

则存在 $x^\ast$ ， $\alpha^\ast$ ， $\beta^\ast$ ，使得 $x^\ast$ 是原始问题的解， $\alpha^\ast$ ， $\beta^\ast$ 是对偶问题的解，并且：
$p^\ast=d^\ast=L(x^\ast,\alpha^\ast,\beta^\ast)$
Th C.3：跟 Th C.2 一样的假设下， $x^\ast$ 和 $\alpha^\ast$ ， $\beta^\ast$ 分别是原始问题和最优问题的可行解的充分必要条件是： $x^\ast$ ， $\alpha^\ast$ ， $\beta^\ast$ 满足 KKT 条件：
$\begin{array}{c} \nabla_x L(x^\ast,\alpha^\ast,\beta^\ast)=0 \\ \alpha_i^\ast c_i(x^\ast)=0, \quad i=1,2,\cdots,k \\ c_i(x^\ast)\leq 0, \quad i=1,2,\cdots,k \\ \alpha_i^\ast \geq 0, \quad i=1,2,\cdots,k \\ h_j(x^\ast)=0, \quad j=1,2,\cdots,k \\ \end{array}$
其中 $\alpha_i^\ast c_i(x^\ast)=0, \quad i=1,2,\cdots,k$ 称为 KKT 的对偶互补条件。由此可知，若 $\alpha_i \gt 0$ ，则 $c_i(x^\ast)=0$ ；