约束极值问题之拉格朗日乘子法、KKT条件与对偶理论

最新推荐文章于 2022-10-03 18:41:37 发布

十里清风

最新推荐文章于 2022-10-03 18:41:37 发布

阅读量4.8k

点赞数 8

分类专栏：高等数学最优化理论文章标签：约束极值 KKT条件拉格朗日函数

本文链接：https://blog.csdn.net/sinat_34072381/article/details/83685964

版权

高等数学同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

最优化理论

5 篇文章 1 订阅

订阅专栏

文章目录

1 等式约束极值问题
- 1.1 拉格朗日乘子法（必要条件）
2 不等式约束极值问题
3 对偶问题

1 等式约束极值问题

考虑非线性规划
$\begin{aligned} \min &\quad f({x}) \quad {x}\in\R^n \\ \text{s.t.} &\quad \varphi_i({x}) =0,\quad i=1,\cdots,m \end{aligned}$

由于自变量的相互独立性被约束条件破坏，不可任意使用求导后的结果。

1.1 拉格朗日乘子法（必要条件）

考虑约束极值问题：求双曲线xy=3离原点最近的点？
$\begin{aligned} \min &\quad x^2 + y^2 \\ \text{s.t.} &\quad xy=3 \end{aligned}$

等式约束也可通过变量替换的形式将约束条件加入目标函数，从而转换为无约束极值问题，但一般不易求解。令目标函数 $f(x)=x^2+y^2$ ，约束函数 $\varphi(x)=xy-3=0$ ，目标函数的等高线和约束曲线如下：

图1 目标函数等值线簇与约束条件曲线

当目标函数与约束曲面相切时（目标函数的梯度正交于约束曲面），可能取得最优值。当 $f (x)$ 与 $\varphi(x)$ 相交时，在等高线 $f (x)$ 的内外侧一定存在更大或更小的等高线（目标值）。相切亦不一定保证是极值点，这与 $f (x)$ 和 $\varphi(x)$ 的凹凸性有关。

$f$ 和 $\varphi$ 在切点处的梯度方向/法方向平行，即满足 $\nabla f(x)=\lambda \nabla \varphi(x)$ ，即 $2y)^T=\lambda(y, x)^T$ ，因此等式约束问题转换为
$\begin{cases} 2x=\lambda y \\ 2y = \lambda x \\ xy = 3 \end{cases}$

易求得上述方程的解为 $\{(x,y)\,|\,(-\sqrt 3, -\sqrt 3), (\sqrt 3, \sqrt 3)\}$ 。

一般性，对于等式约束极值问题，定义辅助拉格朗日函数
$\lambda)=f(x) + \sum_{i=1}^m\lambda_i\varphi_i(x)$

分别对 $x$ 和 $\lambda$ 求偏导，并令各偏导为0，得
$\begin{cases} \nabla f(x) + \sum\limits_{i=1}^m \lambda_i \nabla \varphi_i(x) = 0 \\ \varphi_i(x) = 0, \quad i = 1,2,\cdots,m \end{cases}$

上述方程组，恰好给出了等式约束和最优解的必要条件。

证明：最优解处目标函数和约束函数法向量平行，以及拉格朗日函数的意义

假设寻求函数
$z = f (x, y)$

在条件
$\varphi(x,y)=0$

下的极值的必要条件。

假设 $x_0, y_0)$ 处取得极值，首先满足 $\varphi(x_0, y_0)=0$ 。假定 $x_0,y_0)$ 的某邻域内 $f (x, y)$ 和 $g (x, y)$ 均有一阶连续偏导，且 $\varphi_y(x,y)\neq 0$ 。由隐函数存在定理，存在具有连续导数的函数 $y=\psi(x)$ 使得
$z=f(x,\psi(x))$

由极值的必要条件，知
$\frac{\mathrm dz}{\mathrm dx}\Big |_{x=x_0}=f_x(x_0,y_0)+f_y(x_0,y_0)\frac{\mathrm dy}{\mathrm dx}\big |_{x=x_0}=0$

由隐函数求导公式，知
$\frac{\partial\varphi}{\partial x} + \frac{\partial\varphi}{\partial y}\frac{\mathrm dy}{\mathrm dx}=0 \quad \Rightarrow \quad \frac{\mathrm dy}{\mathrm dx}=-\frac{\varphi_x}{\varphi_y} \quad \Rightarrow \quad \frac{\mathrm dy}{\mathrm dx}\big |_{x=x_0}=-\frac{\varphi_x(x_0,y_0)}{\varphi_y(x_0,y_0)}$

因此
$\frac{f_x(x_0,y_0)}{\varphi_x(x_0,y_0)}=\frac{f_y(x_0,y_0)}{\varphi_y(x_0,y_0)}=-\lambda$

综上所述，最优解的必要条件
$\begin{cases} f_x(x_0,y_0)+\lambda \varphi_x(x_0,y_0)=0\\ f_y(x_0,y_0)+\lambda \varphi_y(x_0,y_0)=0\\ \varphi(x_0,y_0)=0 \end{cases}$

引入辅助拉格朗日函数 $L(x,y,\lambda)=f(x,y)+\lambda \varphi(x,y)$ ，令 $L(x,y,\lambda)$ 对各变量的偏导为0等价于上述方程组。

2 不等式约束极值问题

考虑非线性规划问题
$\begin{aligned} \min &\quad f({x}) \quad {x}\in\R^n\\ \text{s.t.} &\quad g_i({x}) \leq 0,\quad i=1,\cdots,m\\ \end{aligned}$

可行域 $S=\{{x}|g_i({x})\leq 0, i=1,2,\cdots,m\}$ 。

2.1 约束作用

设 $x^*$ 上述非线性规划问题的一个可行解，根据可行解的位置，约束作用可分为两种：

当 $g_i( x^*) = 0$ ， $x^*$ 位于 $S$ 边界， $x^*$ 变动受到约束，该约束条件是 $x^*$ 的起作用约束，约束下标集 $I = \{i \, | \, g_i(x^*) = 0\}$ ，图中A点；
当 $g_i( x^*) < 0$ ， $x^*$ 位于 $S$ 内部， $x^*$ 变动不受约束，该约束条件是$ x^*$的不起作用约束，图中B点；

图2 可行解的可能分布情况

2.2 不等式约束的几何解释

当约束区域 $S$ 包含目标函数原有可行解时，此时可行解满足 $g_i(x^*)<0$ ，约束不起作用，等价于无约束极值问题；当约束区域 $S$ 不包含原有可行解时，此时可行解满足 $g_i(x^*)=0$ ，约束起作用，可使用拉格朗日方法求解。

因此可行解位于可行域内部时， $\lambda=0$ ；可行解位于可行域边界时， $g_i(x^*)=0$ ，因此无论哪种情况，均有
$\lambda g_i(x^*)=0$

图3 可行域不包含原有问题的解（左）和可行域包含原有问题的解（右）

由上图可知，可行解应尽可能靠近约束边界（梯度方向指向边界），目标函数的负梯度方向应朝向无约束时的解（负梯度方向指向圆心极限值点）。对于该非线性规划问题，约束函数的梯度方向与目标函数的负梯度方向同向：
$-\nabla f(x)=\lambda \nabla g_i(x), \quad \lambda > 0$

梯度的方向

对于线性规划中的约束条件 $g_i(x^*)\leq0$ ，可行域对应图3中的红色区域。由于梯度是函数增长的方向，可行域的边界值为0，内部值小于0，因此可行域内某点的梯度方向指向可行域边界（较大的函数值）。

注：若可行域为 $g_i(x^*)\geq0$ ，则可行域内某点的梯度方向指向可行域中心。

2.3 下降方向

设 $x^* \in \R^n$ ， ${d}$ 是非零向量，若 $\exists \delta$ 使得每个 $\lambda \in (0, \delta)$ ，都有 $f(x^* + \lambda {d})<f(x^* )$ ，则 ${d}$ 是 $x^*$ 处的下降方向。若 $f({x^*})$ 可微，当 $\nabla f(x^*)^T {d}<0$ ，显然可推出上式成立（泰勒展开）。

2.4 可行方向

设 $x^*$ 为可行解， ${d}$ 是非零向量，若 $\exists \delta$ 使得每个 $\lambda \in (0, \delta)$ ，都有 $x^* + \lambda {d}\in S$ ，则称 ${d}$ 为 $x^*$ 处的可行方向。 $\{{d}|{d}\neq 0, x^* \in \text{cl S}, \exists \delta > 0, \forall \lambda \in (0, \delta), x^*+\lambda {d} \in S\}$ ，则称为 $x^*$ 处的可行方向锥。

设 $x^*$ 为可行解， ${d}$ 是非零向量，对于 $x^*$ 的所有起作用约束，若 $\exists \delta$ 使得每个 $\lambda \in (0, \delta)$ ，都有 $g_i( x^* +\lambda d) < 0$ ，即
$g_i( x^* +\lambda d) \approx g_i(x^*)+ \nabla g_i(x^*)^T d = \nabla g_i(x^*)^T d < 0, \quad i \in I$
即当 $i\in I$ ，只要满足 $\nabla g_i( x^*)^T{d} < 0$ ，则 $g_i( x^* +\lambda d)< 0$ ，即 $d$ 为 $x^*$ 的可行方向。

2.5 Fritz John条件（最优解必要条件）

由下降方向和可行方向的定义可知，若$ x^ $是最优解，则 * *$ x^ $处，约束函数$ g $的可行方向一定不是目标函数$ f$的下降方向**，即下列方程组无解
$\begin{cases} \nabla f(x^*)^T d\lt0 \\ \nabla g_i(x^*)^T d <0, \quad i \in I \end{cases}$

直接理解为，不可能在最优解 $x^*$ 处，再找到比最优解对应的目标值小且满足约束条件的解。

根据Gordan定理，必存在非零向量 $w=(w_0,w_i, i\in I) \geq 0$ ，使得
$w_0\nabla f(x^*) + \sum_{i\in I}w_i\nabla g_i(x^*)= 0$

引理 Farkas
设 $a_1,\cdots,a_m$ 和 $b$ 是n维向量，则存在向量 $p$ ，满足 $a_i^Tp\ge 0$ 且 $b^Tp\ge 0$ 的充要条件是，存在非负数 $r_i$ 使得 $b=\sum\limits_{i=1}^m\gamma_ia_i$ 。
简单理解是，向量 $p$ 与所有 $a_i$ 和 $b$ 之间的夹角不超过 $\pi$ ，故向量 $b$ 与 $a_i$ 位于"同侧"，图4左图。

引理 Gordan
设 $a_1,\cdots,a_m$ 和 $b$ 是n维向量，则不存在向量 $p$ ，使得 $a_i^Tp\lt0$ 的充要条件是，存在非负数 $r_i$ 使得 $\sum\limits_{i=1}^m\gamma_ia_i=0$ 。
简单理解是，向量 $a_1, \cdots, a_m$ 中，存在夹角超过 $\pi$ 的两个向量，即 $a1 \cdots, a_m$ 位于"不同侧"，图4右图。

图4 Farkas引理和Gordan引理的几何意义

2.6 Kuhn-Tucker条件（最优解必要条件 - 约束规格）

Fritz John条件中，当 $w_0=0$ 时，梯度组合未包含目标函数信息。著名的K-T条件，增加起作用约束的梯度线性无关的约束规格。若 $x^*$ 是局部最优解，则存在非负数 $w_i$ ， $i\in I$ ，使得
$\nabla f(x^*) + \sum_{i\in I}w_i\nabla g_i(x^*)= 0$

证明方法(1)

由存在非零向量 $w=(w_0,\hat w_i, i\in I) \geq 0$ ，使得
$w_0\nabla f(x^*) + \sum_{i\in I} \hat w_i\nabla g_i(x^*)= 0$

显然 $w_0\neq0$ ，因为 $w_0=0$ 时， $\{\nabla g_i(x^*)\,|\,i \in I\}$ 线性相关，因此令 $w_i=\hat w_i/w_0$ ，得
$\nabla f(x^*) + \sum_{i\in I}w_i\nabla g_i(x^*)= 0, \qquad w_i\geq0$

证明方法(2)
引入辅助函数 $L(x, w)=f(x)+w^Tg(x)$ ，假设 $x^*$ 是原问题的最优解，由于 $g(x)\leq0$ ， $w\geq0$ ，故
$w)=f(x)+w^Tg(x)\geq f(x^*)$

因此， $L (x, w)$ 在 $x^*$ 处梯度为 $0$ ，即
$\nabla f(x^*) + \sum_{i\in I}w_i\nabla g_i(x^*)= 0, \qquad w_i\geq0$

因此若 $g_i(i\notin I)$ 在 $x^*$ 可微，则 $K - T$ 条件的等价形式：
$\begin{cases} \nabla f(x^*) + \displaystyle\sum\limits_{i=1}^m w_i\nabla g_i(x^*)= 0 &\qquad(1)\\ w_ig_i(x^*)=0, \qquad i=1,2,\cdots,m &\qquad(2)\\ w_i \geq 0,\qquad i=1,2,\cdots,m &\qquad(3) \end{cases}$

当 $i\notin I$ 时， $g_i(x^*)\neq0$ ，故 $w_i=0$ ，项 $w_i\nabla g_i(x^*)$ 从 $(1)$ 式中自然消去；
当 $i\in I$ 时， $g_i(x^*)= 0$ ，条件 $(2)$ 对 $w_i$ 没有限制，条件 $(2)$ 称为互补松弛条件；

2.7 最优解必要条件

若非线性规划问题中，目标函数 $f (x)$ 和 $g (x)$ 均为凸函数，约束作用集 $I = \{i\ |\ g_i(x^*)=0\}$ ， $f$ 和 $g_i(i\in I)$ 在 $x^*$ 处可微， $g_i(i\notin I)$ 在点 $x^*$ 处连续，若点 $x^*$ 处K-T条件成立，则 $x^*$ 为全局最优解。

证明：显然可行域为凸集， $f$ 为凸函数，此问题为凸规划。
凸函数 $f (x)$ ，满足
$\geq f(x^*)+\nabla f(x^*)^T(x- x^*)$

由于 $x^*$ 处K-T条件成立，故 $\nabla f(x^*) = - \displaystyle\sum\limits_{i=1}^m w_i\nabla g_i(x^*)$ ， $w_i$ 非负，因此
$\geq f(x^*)-\sum\limits_{i\in I}w_i\nabla g_i(x^*)^T(x- x^*)$

同理，由于 $g_i(x)(i \in I)$ 为凸函数，满足
$g_i(x) \geq g_i(x^*)+\nabla g_i(x^*)^T(x- x^*)$

由于 $g_i(x^*)=0$ ， $g_i(x)\geq0$ ，故 $\nabla g_i(x^*)^T(x- x^*)\leq0$ ，因此
$\geq f(x^*)$
$f(x^*)$ 为最小值，问题得证。

3 对偶问题

考虑非线性规划问题，令 $g(x)=(g_1(x), g_2(x), \cdots, g_m(x))^T$ ， $h(x)=(h_1(x), h_2(x), \cdots, h_l(x))^T$ ，则
$\begin{aligned} \min\limits_{x\in\R^n} &\quad f(x) \\ \text{s.t.} &\quad g(x)\leq 0\\ &\quad h(x) = 0 \end{aligned}$

可行域 $S=\{{x}\ |\ g(x)\leq 0;\ h(x) = 0\}$ ，引入广义拉格朗日函数 $\upsilon)=f(x)+w^T g(x)+\upsilon^T h(x)$ 。

3.1 原始问题的等价问题

对于上述非线性规划问题，，令
$\theta_P(x) = \max\limits_{w, \upsilon} L(x, w, \upsilon)$

(i) $x$ 违反约束， $\notin S$ ，此时 $\theta_P(x) \to +\infty$

当 $g_i(x^*)>0$ ，则可令 $w_i \to +\infty$ ，当 $h_i(x^*)\neq 0$ ，令 $\upsilon_ih_i(x ^*) \to +\infty$ ，而将其他 $w_j$ 和 $\upsilon_j$ 置0，则 $\theta_P(x) \to +\infty$ 。

(ii) $x$ 满足约束， $\in S$ ，此时 $\theta_P(x) = f(x)$
当且仅当 $x$ 位于约束边界时， $\theta_P(x) = f(x)$ 。

综上所述，有
$\max\limits_{w, \upsilon} L(x, w, \upsilon) = \begin{cases} f(x), \quad x \in S\\ +\infty, \quad x \notin S \end{cases}$

因此，原始问题的等价问题： $\min\limits_{x}\max\limits_{w, \upsilon} L(x, w, \upsilon)$ ，其中 $\in S$ ，即拉格朗日极小极大问题，先求最优 $w$ 和 $\upsilon$ ，再求最优 $x$ 。

3.2 原始问题的对偶问题

原问题的对偶问题为
$\begin{aligned} \max\limits_{w, \upsilon} &\quad\min\limits_{x}L(x, w, \upsilon)\\ \text{s.t.} &\quad w \geq 0\\ \end{aligned}$

对偶问题为拉格朗日极大极小问题，先求最优 $x$ ，再求最优 $w$ 和 $\upsilon$ 。

3.3 原始问题与对偶问题关系

当 $\in S$ 时， $g(x)\leq0$ ， $h (x) = 0$ ，且 $w\geq0$ ，因此
$\min\limits_{x}L(x, w, \upsilon) =\min_{x}f(x) + w^T g(x)+\upsilon^T h(x) \leq f(x)$

对上述不等式的左边取上界（max）、右边取下界（min），则不等式仍然成立，即
$\max\limits_{w,\upsilon}\min\limits_{x}L(x, w, \upsilon) \leq \min\limits_{x}f(x)=\min\limits_{x}\max\limits_{w, \upsilon} L(x, w, \upsilon)$

即原问题目标函数的最小值不小于对偶问题目标函数的最大值，弱对偶定理。

原问题的解等价于对偶问题的解成立的条件是什么？（强对偶定理）
(i) 若 $f$ 和 $g$ 是凸函数， $h$ 是仿射函数，若存在 $x$ ，对所有 $i$ 满足 $g_i(x)\lt0$ ，则存在 $x^*, w^*,\upsilon^*$ ，使 $x^*$ 是原始问题的解， $w^*,\upsilon^*$ 是对偶问题的解，且目标值相同。

(ii) 若 $f$ 和 $g$ 是凸函数， $h$ 是仿射函数，且 $g_i(x)\leq 0$ ，则存在 $x^*$ 和 $w^*,\upsilon^*$ 分别是原始问题和对偶问题的解的充分必要条件是 $x^*,w^*,\upsilon^*$ 满足KKT条件，即
$\begin{cases} \nabla f(x^*) + \displaystyle\sum\limits_{i=1}^m w_i\nabla g_i(x^*)= 0 \\ w_ig_i(x^*)=0, \qquad i=1,2,\cdots,m \\ g_i(x^*)\leq 0, \qquad i=1,2,\cdots,m \\ w_i \geq 0,\qquad i=1,2,\cdots,m \\ h_j(x^*)=0,\qquad j=1,2,\cdots,l \end{cases}$