《统计学习方法》--拉格朗日对偶性--学习笔记

最新推荐文章于 2024-09-19 16:58:29 发布

Stefan_xiao

最新推荐文章于 2024-09-19 16:58:29 发布

阅读量437

点赞数 1

分类专栏：机器学习统计学习方法文章标签：机器学习线性规划

本文链接：https://blog.csdn.net/qq_35495464/article/details/107967679

版权

机器学习同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

统计学习方法

1 篇文章 0 订阅

订阅专栏

拉格朗日对偶性

拉格朗日乘子法
- 等式约束优化问题：
- 不等式约束优化问题
原始问题
对偶问题
原始问题和对偶问题的关系（3个定理）

在解决 约束最优化问题——如 最大熵模型和 支持向量机中常用的性质，将 原始问题转换为 对偶问题，通过解对偶问题而得到原始问题的解。

拉格朗日乘子法

等式约束优化问题：

对于一个等式约束凸优化问题：
$\min_{x\in R^n}f(x)$
$s.t.\quad h(x)=0$
$x=(x^{(1)},x^{(2)})^T$
$f(\vec{x})$ 为一个凸函数，如图：
在这里插入图片描述

便于进一步理解我们将其投影到 $x^{(1)}$ - $x^{(2)}$ 的平面上：
在这里插入图片描述

只有当等高线和 $h(\vec{x})=0$ 相切时，取得最优解 $f(\vec{x}^*)$ ，即梯度与等高线的法线是垂直的，两曲线的法向量平行，梯度是平行的：

$\nabla f(\vec{x})\parallel\nabla h(\vec{x})$
即： $\frac { \frac{\partial f}{\partial x^{(1)}} } { \frac{\partial f}{\partial x^{(2)}} } = \frac { \frac{\partial h}{\partial x^{(1)}} } { \frac{\partial h}{\partial x^{(2)}} } = -\lambda(梯度平行，且方向是相反的,\lambda>0)$
$\frac{\partial f}{\partial x^{(1)}}=\lambda \frac{\partial h}{\partial x^{(1)}}$
$\frac{\partial f}{\partial x^{(2)}}=\lambda \frac{\partial h}{\partial x^{(2)}}$
这样我们引入一个辅助函数： $L(\vec{x},\lambda)=f(\vec{x})+\lambda h(\vec{x})$
令
$\frac{\partial L}{\partial x^{(1)}}=\frac{\partial f}{\partial x^{(1)}}+\lambda\frac{\partial h}{\partial x^{(1)}}=0$
$\frac{\partial L}{\partial x^{(2)}}=\frac{\partial f}{\partial x^{(2)}}+\lambda\frac{\partial h}{\partial x^{(2)}}=0$
即：
$\nabla_XL=\frac{\partial L}{\partial X}=\nabla f+\lambda\nabla h=0$
$\nabla_\lambda L=\frac{\partial L}{\partial \lambda}=h(\vec{x})=0$
这样两个方程联立求解的方法就叫做拉格朗日乘子法， $\lambda$ 就称为拉格朗日乘子。
得到我们的最优解 $x^{(1)*}$ 、 $x^{(2)*}$ 以及我们的目标函数的值 $f(\vec{x}^*)$

不等式约束优化问题

如果上述约束条件推广为不等式：
如，
$\min_{x\in R^n}f(x)$
$s.t.\quad h(x)\leq0$
$x=(x^{(1)},x^{(2)})^T$

约束不等式 $h(x)\leq0$ 称为原始可行性（Primal Feasibility）。
我们分成 $h (x) < 0$ 和 $h (x) = 0$ 两种情况讨论：

（1）如果目标函数 $f(\vec{x})$ 在无约束下的极小值点在约束函数 $h(\vec{x})\leq0$ 的外侧：（最优解取在边界上）（ $h(\vec{x}^*)=0$ ）

那么解法其实就和等式约束优化问题的解是相同的。

对于这种情况，凸函数 $f$ 的法线 $\nabla f$ 指向 $f$ 值增长的方向，凸函数 $h$ 的法线 $\nabla h$ 指向 $h$ 值增长的方向：
在这里插入图片描述
依旧是：
$\nabla f+\lambda\nabla h=0$
此时注意， $\nabla f$ 和 $\nabla h$ 的方向是相反的，所以 $\nabla f=-\lambda\nabla h$ ，即： $\boldsymbol\lambda>0$

（2）如果目标函数 $f(\vec{x})$ 在无约束下的极小值点在约束函数 $h(\vec{x})\leq0$ 的内侧：（最优解取在 $h(\vec{x})\leq0$ 内部）（ $h(\vec{x}^*)<0$ ）
在这里插入图片描述
对于这种情况来说，约束条件就无效了。
$h(\vec{x})$ 不起作用，约束优化问题就退化为了无约束优化问题，因此 $\vec{x}^*$ 满足 $\nabla f=0$ 且： $\boldsymbol\lambda=0$ 等同于求 $m i n$ $f(\vec{x})$ 而已。

综上：

内部解：在约束条件无效的情形下， $h(\vec{x})$ 不起作用，约束优化问题退化为无约束优化问题，因此最优解 $\vec{x}^*$ 满足 $\nabla f=0$ 且 $\lambda =0$ 。
边界解：在约束条件有效的情形下，约束不等式变成等式 $h(\vec{x})=0$ ，这与前述拉格朗日乘数法的情况相同。我们可以知道，存在 $\lambda$ 使得 $\nabla f=-\lambda\nabla h$ ，但这里 $\lambda$ 的正负号是有其意义的。因为我们希望最小化 $f$ ，梯度 $\nabla f$ (函数 $f$ 在点 $x$ 的最陡上升方向)应该指向可行域的内部(因为我们的最优解最小值是在边界取得的)，但 $\nabla h$ 指向可行域的外部(即 $h(\vec{x})>0$ 的区域，因为我们的约束是 $\leq 0$ ，因此我们最终得到： $\boldsymbol\lambda \geq 0$ 称为对偶可行性(dual feasibility)。

并且，我们还得出：
无论是内部解还是边界解，都有 $\lambda h(x)=0$ 恒成立，称为互补松驰性（Complementary Slackness）。

【互补松驰性】：
当优化问题的不等式约束不等于0（ $h (x) < 0$ ）时，原始问题的约束是无效的，它无效，就得让 $\lambda=0$ 来限制使之产生正向作用；否则就不用 $\lambda$ 来限制了。

原始问题

经过以上一些基本的讨论，我们可以得到约束最优化问题的一般形式：

给出要优化的问题函数 $f (x)$ 及要优化的变量 $\in R^n$
$s . t .$ ：给出约束条件
$c_i(x)$ ：不等式约束（k个）
$h_j(x)$ ：等式约束（l个）

考虑最优化问题（基本形式）：
$\min_{x \in R^n}f(x)$
$s.t.\quad c_i(x)\leq0，i=1,2,...,k$
$\qquad h_j(x)=0，j=1,2,...,l$

引入广义拉格朗日函数：
$L(x,\alpha,\beta)=f(x)+\sum_{i=1}^{k}\alpha_ic_i(x)+\sum_{j=1}^{l}\beta_jh_j(x)$
后两项正是包含了优化问题的两个约束函数：

$\alpha ,\beta$ ：拉格朗日乘子（k个，l个特征分量）（ $\alpha_i\geq0$ ）
满足不等式约束的所有k个 $x$ 集合与满足等式约束的所有l个 $x$ 集合，取交集得到满足约束条件的可行域
最优化问题的目的：在可行域中找一个使目标函数最小的 $x$ ，得到最优解 $x^*$ ，此时的目标函数值为 $p^*=f(x^*)$

比如，我们考虑 $x$ 的函数：
$\theta_P(x)=\min_x \max_{\alpha,\beta:\alpha_i\geq0}L(x,\alpha,\beta)$
$P$ 表示原始问题。

那么，为什么要设置成 $c_i\leq 0$ 和 $h_j=0$ 这两个约束条件呢？
首先我们想一下如果让 $x$ 打破这两个约束，比如，存在某个 $i$ 使得 $c_i>0$ ，存在某个 $j$ 使得 $h_j\neq0$ ，那么我们就会发现，不对 $x$ 的取值范围进行限制，会使得：
$\theta_P(x)=\max_{\alpha,\beta:\alpha_i\geq0}\left[ f(x)+\sum_{i=1}^{k}\alpha_ic_i(x)+\sum_{j=1}^{l}\beta_jh_j(x)\right]=+\infty$
因为，一旦 $\alpha_i\geq0$ ， $c_i>0$ ， $\sum_{i=1}^{k}\alpha_ic_i(x)$ 会有机会趋于 $+\infty$ ；同样，由于 $h_j\neq0$ ，且没有对 $\beta_j$ 进行限制，总会能达到正无穷。

所以，只有当 $x$ 满足这两个约束条件式时，这个广义拉格朗日函数的极小极大问题才能等价于原始得最优化问题：
$\theta_P(x)=\min_x \max_{\alpha,\beta:\alpha_i\geq0}L(x,\alpha,\beta)=\min_x \begin{cases} f(x), & \text{$c_i(x)\leq0,h_j(x)=0$} \\ +\infty, & \text{$Otherwise$} \end{cases}$
那么，这样的话，我们再去考虑极小化问题：
$\min_x\theta_P(x)=\min_x \max_{\alpha,\beta:\alpha_i\geq0}L(x,\alpha,\beta)$
就和我们原始的最优化问题是等价的了，即它俩有相同的解。
定义原始问题的最优值为： $p^*=\min_x\theta_P(x)$

对偶问题

对偶问题其实就是原始问题的反过来。
此时对变量 $\alpha$ 和 $\beta$ 进行优化：
定义：
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta)$
再考虑极大化 $\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta)$ ，即：
$\max_{\alpha,\beta:\alpha_i\geq0}\theta_D(\alpha,\beta)=\max_{\alpha,\beta:\alpha_i\geq0}\min_xL(x,\alpha,\beta)$
称为广义拉格朗日函数的极大极小问题。

同样，可以将极大极小问题表示为约束最优化问题：
$\max_{\alpha,\beta}\theta_D(\alpha,\beta)=\max_{\alpha,\beta}\min_xL(x,\alpha,\beta)$
$s.t.\quad \alpha_i\geq0,i=1,2,...,k$
称为原始问题的对偶问题。得到对偶问题的最优解 $\alpha^*$ 和 $\beta^*$ 以及最优值：
$d^*=\max_{\alpha,\beta:\alpha_i\geq0}\theta_D(\alpha,\beta)$

【小总结】

原始问题：关于 $x$ 求目标函数的极小值，极小极大化拉格朗日函数
对偶问题：关于 $\alpha$ 和 $\beta$ 求目标函数极大值，极大极小化拉格朗日函数

原始问题和对偶问题的关系（3个定理）

定理C.1（ $d^$ 和 $p^$ 的关系）

【定理C.1】
若原始问题和对偶问题都有最优值，则：
$d^*=\max_{\alpha,\beta:\alpha_i\geq0}\min_xL(x,\alpha,\beta)\leq\min_x \max_{\alpha,\beta:\alpha_i\geq0}L(x,\alpha,\beta)=p^*$
【证明】：
首先我们知道，原始问题对 $x$ 的取值进行了两个条件式（可行域： $c_i(x)\leq0$ , $h_j(x)=0$ ）的约束，而对偶问题则只对 $\alpha$ 进行了约束，对 $x$ 没有约束，所以，对于对偶问题中的 $\min_{x}L(x,\alpha,\beta)$ ，通过它得到的极小值一定比原始问题中对 $x$ 加以限制而得到的极小值要小，这样就得到了一个不等式关系：
$\min_xL(x,\alpha,\beta)\leq\min_{x\in可行域}L(x,\alpha,\beta)$
$d^*=\max_{\alpha,\beta:\alpha_i\geq0}\min_xL(x,\alpha,\beta)\leq\max_{\alpha,\beta:\alpha_i\geq0}\min_{x\in可行域}L(x,\alpha,\beta)$
同时，满足了可行域，那么也即满足 $c_i(x)\leq0$ 、 $h_j(x)=0$ ，且 $\alpha_i\geq0$ ，那么表达式：
$\sum_{i=1}^{k}\alpha_ic_i(x)\leq0\quad,\quad\sum_{j=1}^{l}\beta_jh_j(x)=0$
也即：
$L(x,\alpha,\beta)=f(x)+\sum_{i=1}^{k}\alpha_ic_i(x)+\sum_{j=1}^{l}\beta_jh_j(x)\leq f(x)$
所以： $d^*=\max_{\alpha,\beta:\alpha_i\geq0}\min_xL(x,\alpha,\beta)\leq\max_{\alpha,\beta:\alpha_i\geq0}\min_{x\in可行域}L(x,\alpha,\beta)\leq\max_{\alpha,\beta:\alpha_i\geq0}\min_{x\in可行域}f(x)$
又 $f (x)$ 与 $\alpha,\beta$ 无关：
$\max_{\alpha,\beta:\alpha_i\geq0}\min_{x\in可行域}f(x)\leq\min_{x\in可行域}f(x)$
综上： $d^*\leq\min_{x\in可行域}f(x)=p^*$
证毕。

通过以上这个定理我们可以看出：
$d^*\leq p^*$
对偶问题的最优值提供了一个原始问题最优值的一个下界，也就是说，原始问题的最优值最小不能小于对偶问题的最优值。

我们发现这个不等式中有等号，那么等号的情况是什么样呢？

【推论C.1】
设 $x^*,\alpha^*,\beta^*$ 分别为原始问题和对偶问题的可行解，且 $d^*=p^*$ 时，则 $x^*,\alpha^*,\beta^*$ 分别是原始问题和对偶问题的最优解

定理C.2（ $d^=p^$ 的条件）

【定理C.2】
当原始问题满足：

（1）原始问题是个凸优化问题
（2）满足slater条件

则 $\implies(充分条件)$ ： $d^*=p^*$ （强对偶性）（ $d^*\leq p^*$ 为弱对偶性）

【凸优化问题】
我们的优化问题是在一个可行域中找到目标函数的最优值。那么如果我们的可行域集合是一个凸集，且要求的目标函数 $f (x)$ 是一个凸函数，且要求的是目标函数的极小值，满足以上三个条件，就说这是一个凸优化问题。

凸集：凸集是一个集合 $S$ ，若任意取两个点 $x,y\in S$ ，如果这两个点的连线上的所有点也都在这个集合 $S$ 内，则集合 $S$ 称为凸集。
仿射函数：由 1 阶多项式构成的函数，一般形式为 $f (x) = A x + b$ ，这里， $A$ 是一个 $m \times k$ 矩阵， $x$ 是一个 $k$ 维向量， $b$ 是一个 $m$ 维向量，实际上反映了一种从 $k$ 维到 $m$ 维的空间映射关系。
对于优化问题中的约束：如果不等式约束函数 $c_i(x)$ 是凸函数，等式约束函数 $h_j(x)$ 是仿射函数（关于 $x$ 的线性函数）时，可行域集合就是一个凸集

【slater条件】
针对优化问题中约束条件的不等式约束条件的限制。
若 $x$ 满足所有不等式约束条件的凸集的交集，且交集中存在相对内点，也就是说不等式约束是严格可行的（也即，存在 $x$ ，对所有 $i$ ，有 $c_i<0$ ）。

这样的话，就得出：
$p^*=d^*=L(x^*,\alpha^*,\beta^*)$
这个时候，就可以用解对偶问题代替解原始问题。

定理C.3（KKT条件）

其实，我们在上面拉格朗日乘子法部分讨论不等式约束优化问题过程中，就已经找到了KKT的所有条件。
对于前面部分探讨的优化问题：
$\min_{x\in R^n}f(x)$
$s.t.\quad h(x)\leq0$
$x=(x^{(1)},x^{(2)})^T$
整合不等式约束条件的两种求解情况，最优解的必要条件包括拉格朗日乘子法的方程式、原始可行性、对偶可行性以及互补松驰性：