拉格朗日乘子、KKT条件与对偶问题

最新推荐文章于 2024-08-27 20:46:42 发布

EntropyPlus

最新推荐文章于 2024-08-27 20:46:42 发布

阅读量1.4k

点赞数 2

分类专栏：支持向量机文章标签：支持向量机

本文链接：https://blog.csdn.net/u012759262/article/details/100796979

版权

支持向量机专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

1. 拉格朗日算子
2. KKT条件
- 2.1 一个限制条件的情况
- 2.2 多个限制条件的情况
3. 对偶问题
4. 小结
5. 参考文献

1. 拉格朗日算子

1.1 基本流程

假设 $\boldsymbol{x}=[x_1,x_2,...,x_d]$ ，是一个 $d$ 维的向量， $f (x)$ 和 $g (x)$ 是定义在实数集上连续可微的函数，现在需要找一个 $x^*$ 使得 $f (x)$ 具有最小值，且 $\leq 0$ 。即有：
$\begin{aligned} \min _x f(x) \\ s.t. \ g(x) \leq 0 \tag{1.1} \end{aligned}$
那么，通过拉格朗日乘子法，可以构造出下面的式子：
$\begin{aligned} L(\boldsymbol{x}, w) = f(\boldsymbol{x}) + wg(\boldsymbol{x}) \tag{1.2} \end{aligned}$

令 $L(\boldsymbol{x},w)$ 的对 $\boldsymbol{x}$ 的导数为0，求解出 $x, w$ 的值，那么， $\boldsymbol{x}$ 就是函数 $f(\boldsymbol{x})$ 在附加条件 $g(\boldsymbol{x})$ 下可能的极值点。
会做题拿分就够了！！！

1.2 理解

第一层理解：

在学高数的时候，对拉格朗日的理解仅限于：构造了一个函数 $L(x,y,\lambda)$ ，对该函数 $L(x,y,\lambda)$ 求极导，令导数为0，可以算出极大值极小值。

第二层理解：

在进行第二层理解时，需要明白几个概念：

数学里面，梯度指的是函数变化最快的方向。
梯度跟函数约束曲线是垂直的，既然垂直于约束曲面，就一定垂直于等高线。

具体可以参考这篇文章拉格朗日乘子法。该文比较直观的介绍了拉格朗日的基本定理，并且从切线、梯度的角度分析了拉格朗日算子。
拉格朗日附体，我是最牛逼的！

2. KKT条件

2.1 一个限制条件的情况

看完这个例子之后，在公式(1.2)可能取到的所有点中，的的确确找到了一个 $\boldsymbol{x^*}$ ，使得 $f(\boldsymbol{x})$ 最小且满足 $g(\boldsymbol{x}) \leq 0$ ，在这样的情况下，必然有
$\begin{aligned} \bigtriangledown f(\boldsymbol{x^*}) + w \bigtriangledown g(\boldsymbol{x^*}) = 0 \tag{2.1} \end{aligned}$
而公式(2.1)在某些条件下刚好是公式(1.2)： $f(\boldsymbol{x}) + wg(\boldsymbol{x})$ 对 $\boldsymbol{x}$ 的偏导数等于 $0$ 的情况。
$\begin{aligned} \frac{\partial{L(\boldsymbol{x}, w)}}{\partial{\boldsymbol{x}}} = \bigtriangledown f(\boldsymbol{x}) + w \bigtriangledown g(\boldsymbol{x}) \end{aligned}$
那么，某些条件是什么呢？
找到这些条件，就可以嘿嘿嘿

$g(\boldsymbol{x}) \leq 0$ ：这个没什么好说的，限制条件。
$\geq 0$ ：要满足这个条件，考虑 $g(\boldsymbol{x})<0$ 和 $g(\boldsymbol{x})=0$ 两种情况：
(1). 当 $g(\boldsymbol{x^*})=0$ 时：说明这个点在 $g(\boldsymbol{x})=0$ 构成的边界上，此时必然有 $\bigtriangledown f(\boldsymbol{x^*})$ 和 $\bigtriangledown g(\boldsymbol{x^*})$ 平行，但是无法保证他们俩方向和大小相同，因此标量 $w > 0$ ，使得等式(2.1)成立。

(2). 当 $g(\boldsymbol{x^*})<0$ 时：说明这个点在 $g(\boldsymbol{x})=0$ 构成边界的内部，此时限制条件 $g(\boldsymbol{x}) \leq 0$ 就打酱油了，没卵用，可以直接通过条件 $\bigtriangledown f(\boldsymbol{x})=0$ 获得最优点，这个时候 $w = 0$ 。
$wg(\boldsymbol{x})=0$ ：要加上这个条件的原因是，为了满足条件2中的两种情况。
$\begin{aligned} \left\{\begin{matrix} g(\boldsymbol{x}) \leq 0 \\ w \geq 0 \\ wg(\boldsymbol{x})=0 \end{matrix}\right. \tag{2.2} \end{aligned}$
所以啊，公式(2.2)就被称为Karush-Kuhn-Tucker, (KKT)条件。

2.2 多个限制条件的情况

一个限制条件说清楚了，那么多当有多个约束条件时，考虑 $l$ 个等式约束和 $k$ 个不等式约束。
$\begin{aligned} \min _x f(\boldsymbol{x}) & \\ s.t. \ c_i(\boldsymbol{x}) \leq 0 \ & (i=1,2,...,k)\\ \ h_j(\boldsymbol{x}) = 0 \ & (j=1,2,...,l) \tag{2.3} \end{aligned}$
这个时候，引入拉格朗日算子 $\boldsymbol{\alpha}=[\alpha_1,\alpha_2,...,\alpha_l]$ 和 $\boldsymbol{\beta}=[\beta_1,\beta_2,...,\beta_k]$ ，拉格朗日函数为
$\begin{aligned} L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta}) = f(\boldsymbol{x}) + \sum_{i=1}^{k} \alpha_i c_i(\boldsymbol{x}) + \sum_{j=1}^{l} \beta_j h_j(\boldsymbol{x}) \tag{2.4} \end{aligned}$
则他们的KKT条件是：
$\begin{aligned} \left\{\begin{matrix} c_i(\boldsymbol{x}) \leq 0 \ & (i=1,2,...,k)\\ \alpha_i \geq 0 \ & (i=1,2,...,k)\\ \alpha_i c_i(\boldsymbol{x})=0\\ h_j(\boldsymbol{x})=0 \end{matrix}\right. \tag{2.5} \end{aligned}$
这有啥难的？瞎几把套就行

3. 对偶问题

KKT条件中提到，在公式(1.2)可能取到的所有点中，的的确确找到了一个 $\boldsymbol{x^*}$ ，使得 $f(\boldsymbol{x})$ 最小且满足 $g(\boldsymbol{x}) \leq 0$ 。

但是，如果找不到呢。。。
马德！！！

3.1 原始问题

3.1.1 一个限制条件的情况下

找不到 $\boldsymbol{x^*}$ ，公式(2.1)就不能成立了，
$\begin{aligned} \bigtriangledown f(\boldsymbol{x^*}) + w \bigtriangledown g(\boldsymbol{x^*}) = 0 \tag{2.1} \end{aligned}$
但是，我要怎么告诉公式(2.1)不能成立啊！！！

找不到 $\boldsymbol{x^*}$ ，说明存在一个 $\boldsymbol{x^{fake}}$ 违背了 $g(\boldsymbol{x}) \leq 0$ 的条件，有 $g(\boldsymbol{x^{fake}}) > 0$ ，既然这样的话，在
$\begin{aligned} L(\boldsymbol{x}, w) = f(\boldsymbol{x}) + wg(\boldsymbol{x}) \end{aligned}$
中，我们令 $\rightarrow {+\infty}$ 。这样的话，

若 $\boldsymbol{x}$ 不违反 $g(\boldsymbol{x}) \leq 0$ 约束，则 $\max_w L(\boldsymbol{x}, w) =f(\boldsymbol{x})$
若 $\boldsymbol{x}$ 违反 $g(\boldsymbol{x}) \leq 0$ 约束，则 $\max_w L(\boldsymbol{x}, w) = {+\infty}$

所以就变成了
$\begin{aligned} \min _x \max_w L(\boldsymbol{x}, w)\tag{3.1} \end{aligned}$

3.2.2 多个限制条件的情况下

$\begin{aligned} \min _x \max_{\alpha_i, \beta_j; \alpha_i \geq0} L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})\tag{3.2} \end{aligned}$

again？？？

3.2 转化者

换个心情，换个思路。。。（透。。。）
这个问题称为广义拉格朗日函数的极大极小问题。
$\begin{aligned} \max_{\alpha_i, \beta_j;\alpha_i \geq0} \min _x L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})\tag{3.3} \end{aligned}$
也就是求
$\begin{aligned} \max_{\alpha_i, \beta_j;}\min _x L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})\\ s.t. \ \alpha_i \geq0 \tag{3.4} \end{aligned}$

3.3 大小安排一波？？？

假设公式(3.2) 原始人 的最优解为 $p^*$ ，公式(3.4) 转化者 的最优解为 $d^*$ 。
因为
$\begin{aligned} \min _x L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta}) \leq L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta}) \leq \max_{\alpha_i, \beta_j; \alpha_i \geq0} L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta}) \tag{3.5} \end{aligned}$
因为原始人和转化者都有最优解，所以有
$\begin{aligned} d^*=\max_{\alpha_i, \beta_j;} \min _x L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta}) \leq \min_x \max_{\alpha_i, \beta_j} L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})=p^* \tag{3.6} \end{aligned}$
所以在KKT条件中，还要加上这几条，最后是：
$\begin{aligned} \left\{\begin{matrix} \bigtriangledown_{\boldsymbol{x}}L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})=0\\ \bigtriangledown_{\boldsymbol{\alpha}}L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})=0\\ \bigtriangledown_{\boldsymbol{\beta}}L(\boldsymbol{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})=0\\ c_i(\boldsymbol{x}) \leq 0 \ & (i=1,2,...,k)\\ \alpha_i \geq 0 \ & (i=1,2,...,k)\\ \alpha_i c_i(\boldsymbol{x})=0\\ h_j(\boldsymbol{x})=0 \end{matrix}\right. \tag{3.7} \end{aligned}$