3 篇文章 5 订阅

# 1. 从最优化引出的拉格朗日乘数法

## 1.1 一个最简单的无约束优化问题

min ⁡ x ∈ R n f ( x ) \large \min_{x \in \mathbb{R^n}}{f(x)}

## 1.2 带有等式约束的优化问题

min ⁡ x ∈ R n f ( x ) s . t h i ( x ) = 0 , i ∈ [ 1 , l ] \large \begin{aligned} &\min_{x \in \mathbb{R^n}}{f(x)}\\ &s.t \quad h_i(x) = 0, i \in [1, l] \end{aligned}

L ( x , λ ) = f ( x ) + ∑ i = 1 l λ i h i ( x ) x ∈ R n , λ ∈ R l \begin{aligned} &L(x, \lambda) = f(x) + \sum_{i=1}^{l}\lambda_ih_i(x)\\ &x \in \mathbb{R^n}, \lambda \in \mathbb{R^l} \end{aligned}

{ ∂ L ∂ x = 0 h i ( x ) = 0 \left\{ \begin{aligned} &\frac{\partial L}{\partial x} = 0\\ &h_i(x) = 0 \end{aligned} \right.

x ∗ x^* 是被等式 h h 约束的最优化问题 min ⁡ f \min f 的解，则 f f h h x ∗ x^* 处相切

∇ f = λ ∇ h , λ ≠ 0 \nabla f = \lambda \nabla h,\quad \lambda \not = 0

{ d f d x + λ d h d x = 0 h ( x ) = 0 \left\{ \begin{aligned} &\frac{\mathbb{d}f}{\mathbb{d}x} + \lambda\frac{\mathbb{d}h}{\mathbb{d}x} = 0\\ &h(x) = 0 \end{aligned} \right.

## 1.3 再加上不等式约束

min ⁡ x ∈ R n f ( x ) s . t c i ( x ) ⩽ 0 , i ∈ [ 1 , k ] h j ( x ) = 0 , j ∈ [ 1 , l ] (1) \large \begin{aligned} &\min_{x \in \mathbb{R^n}}{f(x)}\\ &s.t \quad c_i(x) \leqslant 0, i \in [1, k]\\ &\qquad h_j(x) = 0, j \in [1, l]\\ \end{aligned} \tag{1}

# 2. 预备的数学知识

## 2.1 数学符号说明

### min ⁡ \min / max ⁡ \max 符号

min ⁡ x f ( x ) (a) \min_{x} f(x) \tag{a}

max ⁡ x ∈ D f ( x , λ ) (b) \max_{x \in D}f(x, \lambda) \tag{b}

max ⁡ λ min ⁡ x f ( x , λ ) (c) \max_{\lambda}\min_{x}f(x, \lambda) \tag{c}

max ⁡ x ∈ D f ( x , λ ) (b) \max_{x \in D}f(x, \lambda) \tag{b}

g ( λ ) = max ⁡ x ∈ D f ( x , λ ) g(\lambda) = \max_{x \in D}f(x, \lambda)

• g ( λ ) g(\lambda) 是一个关于 λ \lambda 的函数
• λ = y \lambda = y 时， g ( λ ) g(\lambda) 的取值为：固定 f ( x , λ ) f(x, \lambda) 中的 λ = y \lambda = y ，变动 x x f f 能取到的最大值

f ( x , y ) = x 2 + y 2 g ( y ) = min ⁡ x ∈ D f ( x , y ) g ( 4 ) = min ⁡ x ∈ D f ( x , 4 ) = min ⁡ x ∈ D ( x 2 + 16 ) = 0 + 16 = 16 \begin{aligned} &&f(x, y) &= x^2 + y^2\\ &&g(y) &= \min_{x \in D}f(x, y)\\ &&g(4) &= \min_{x \in D}f(x, 4)\\ && &= \min_{x \in D}(x^2 + 16)\\ && &= 0 + 16 = 16 \end{aligned}

v = max ⁡ λ min ⁡ x f ( x , λ ) v = \max_{\lambda}\min_{x}f(x, \lambda)

g ( λ ) = min ⁡ x f ( x , λ ) v = max ⁡ λ g ( λ ) \begin{aligned} &g(\lambda) = \min_{x}f(x, \lambda)\\ &v = \max_\lambda{g(\lambda)} \end{aligned}

### inf ⁡ \inf 和 sup ⁡ \sup 符号

inf ⁡ \inf 是 infimum (下确界) 的简称，而 sup ⁡ \sup 是 supremum (上确界) 的简称。它们和 min 还有 max 很相似，但是细节部分略有不同。具体来讲，一个例子足以:

• max ⁡ f \max{f} 不存在
• sup ⁡ f \sup{f} 存在，且为1

### 其他符号

• d o m   f dom\ f : 函数 f f 的定义域
• ⋂ S i \bigcap S_i : 对若干集合 S i S_i 求交集

## 2.2 凸函数和凹函数

1. 若函数 f : R n → R f: \mathbb{R^n} \to \mathbb{R} 是凸的，则:

∀ x ,   y ∈ d o m   f ,   ∀ θ ∈ [ 0 , 1 ] f ( θ x + ( 1 − θ ) y ) ⩽ θ f ( x ) + ( 1 − θ ) f ( y ) \begin{aligned} &\forall x,\ y \in dom\ f,\ \forall \theta \in [0, 1]\\ &f(\theta x + (1 - \theta)y) \leqslant \theta f(x) + (1 - \theta) f(y) \end{aligned}

1. 若函数 f : R n → R f: \mathbb{R^n} \to \mathbb{R} 是凹的，则:

∀ x ,   y ∈ d o m   f ,   ∀ θ ∈ [ 0 , 1 ] f ( θ x + ( 1 − θ ) y ) ⩾ θ f ( x ) + ( 1 − θ ) f ( y ) \begin{aligned} &\forall x,\ y \in dom\ f,\ \forall \theta \in [0, 1]\\ &f(\theta x + (1 - \theta)y) \geqslant \theta f(x) + (1 - \theta) f(y) \end{aligned}

## 2.3 仿射函数

x ⃗ → A x ⃗ + b ⃗ \vec x \rightarrow A\vec x + \vec b

f ( x ) = A x + b ,   x ∈ R n f(x) = Ax + b,\ x\in \mathbb{R^n}

a 1 x 1 + a 2 x 2 + ⋯ + a n x n + b a_1x_1 + a_2x_2 + \cdots + a_nx_n + b

f ( θ x + ( 1 − θ ) y ) = θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x + (1 - \theta)y) = \theta f(x) + (1 - \theta) f(y)

## 2.4 凸优化

min ⁡ x ∈ R n f ( x ) s . t c i ( x ) ⩽ 0 , i ∈ [ 1 , k ] h j ( x ) = 0 , j ∈ [ 1 , l ] \large \begin{aligned} &\min_{x \in \mathbb{R^n}}{f(x)}\\ &s.t \quad c_i(x) \leqslant 0, i \in [1, k]\\ &\qquad h_j(x) = 0, j \in [1, l]\\ \end{aligned}

1. f ( x ) f(x) 是凸函数
2. c i ( x ) c_i(x) 是凸函数
3. h j ( x ) h_j(x) 是仿射函数

min ⁡ x ∈ R n f ( x ) s . t c i ( x ) ⩽ 0 , i ∈ [ 1 , k ] a j x = b j , j ∈ [ 1 , l ] \large \begin{aligned} &\min_{x \in \mathbb{R^n}}{f(x)}\\ &s.t \quad c_i(x) \leqslant 0, i \in [1, k]\\ &\qquad a_jx = b_j, j \in [1, l]\\ \end{aligned}

# 3. 从广义拉格朗日函数到拉格朗日对偶函数

OK，做了一大堆铺垫，我们终于要开始正式将拉格朗日对偶了。

min ⁡ x ∈ R n f ( x ) s . t c i ( x ) ⩽ 0 , i ∈ [ 1 , k ] h j ( x ) = 0 , j ∈ [ 1 , l ] (1) \large \begin{aligned} &\min_{x \in \mathbb{R^n}}{f(x)}\\ &s.t \quad c_i(x) \leqslant 0, i \in [1, k]\\ &\qquad h_j(x) = 0, j \in [1, l]\\ \end{aligned} \tag{1}

• 我们不假定原函数 f f 的凹凸性，也就是 f f 可以是非凸非凹函数
• 记问题的定义域 D = ( d o m   f ) ∩ ( ⋂ i = 1 k c i ) ∩ ( ⋂ i = 1 l h i ) D = (dom\ f)\cap(\bigcap_{i=1}^k{c_i})\cap (\bigcap_{i=1}^l{h_i})
• D ≠ ∅ D \neq \empty
• 我们约定最终求出来的最优结果用 p ∗ p^* 表示

## 3.1 啥是对偶？

1. 约束条件太多
很显然约束越多，问题就越难解决，原问题中总共有 k + l k + l 个约束，相当麻烦
2. 原问题凹凸性不明确
之前我们说过，“不假定原函数 f f 的凹凸性”，这就意味着我们无法将凸优化的方法应用在原问题中

1. 只有一个约束
2. 拉格朗日对偶问题一定是凹的

## 3.3 广义 Lagrange 函数

L : R n × R k × R l → R L ( x , λ , μ ) = f ( x ) + ∑ i = 1 k λ i c i ( x ) + ∑ j = 1 l μ j h j ( x ) x ⃗ ∈ R n ,   λ ⃗ ∈ R k ,   μ ⃗ ∈ R l (2) \begin{aligned} &\mathcal{L}: \mathbb{R^n}\times \mathbb{R^k}\times \mathbb{R^l} \rightarrow R\\ &\mathcal{L}(x, \lambda, \mu) = f(x) + \sum_{i = 1}^{k}{\lambda_ic_i(x)} + \sum_{j = 1}^{l}{\mu_jh_j(x)}\\ &\vec x \in \mathbb{R^n},\ \vec \lambda \in \mathbb{R^k},\ \vec \mu \in \mathbb{R^l} \end{aligned} \tag{2}
λ ⃗ \vec \lambda μ ⃗ \vec \mu 被称为拉格朗日乘子向量。

## 3.4 Lagrange 对偶函数 g g

g ( λ , μ ) = inf ⁡ x ∈ D L ( x , λ , μ )   = inf ⁡ x ∈ D ( f ( x ) + ∑ i = 1 k λ i c i ( x ) + ∑ j = 1 l μ j h j ( x ) ) λ ⩾ 0 (3) \begin{aligned} &&g(\lambda, \mu) &= \inf_{x\in D}{\mathcal{L}(x, \lambda, \mu)}\\ &&\ &=\inf_{x\in D}{\big (f(x) + \sum_{i = 1}^{k}{\lambda_ic_i(x)} + \sum_{j = 1}^{l}{\mu_jh_j(x)}\big )}\\ &&\lambda \geqslant 0 \end{aligned} \tag{3}

f ( θ x + ( 1 − θ ) y ) ⩾ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x + (1 - \theta)y) \geqslant \theta f(x) + (1 - \theta) f(y)

• 第一步

g ( λ , μ ) = inf ⁡ x ∈ D { L ( x 1 , λ , μ ) , L ( x 2 , λ , μ ) , ⋯   , L ( x n , λ , μ ) } , n → + ∞ g(\lambda, \mu) = \inf_{x\in D}\{\mathcal{L}(x_1, \lambda, \mu), \mathcal{L}(x_2, \lambda, \mu), \cdots, \mathcal{L}(x_n, \lambda, \mu)\}, n\to +\infty

• 第二步

γ = ( λ , μ ) ,   g ( γ ) = g ( λ , μ ) \gamma = (\lambda, \mu),\ g(\gamma) = g(\lambda, \mu)

• 第三步

g ( θ γ 1 + ( 1 − θ ) γ 2 ) = inf ⁡ { L ( x 1 , θ γ 1 + ( 1 − θ ) γ 2 ) ,   L ( x 2 , θ γ 1 + ( 1 − θ ) γ 2 ) ,   ⋯   ,   L ( x n , θ γ 1 + ( 1 − θ ) γ 2 ) } = inf ⁡ { θ L ( x 1 , γ 1 ) + ( 1 − θ ) L ( x 1 , γ 2 ) ,   ⋯   ,   θ L ( x n , γ 1 ) + ( 1 − θ ) L ( x n , γ 2 ) } ⩾ θ inf ⁡ { L ( x 1 , γ 1 ) ,   L ( x 2 , γ 1 ) , ⋯   ,   L ( x n , γ 1 ) } + ( 1 − θ ) inf ⁡ { L ( x 1 , γ 2 ) ,   L ( x 2 , γ 2 ) , ⋯   ,   L ( x n , γ 2 ) } = θ g ( γ 1 ) + ( 1 − θ ) g ( γ 2 ) \begin{aligned} &g(\theta\gamma_1 + (1 - \theta)\gamma_2)\\ &= \inf\{\mathcal{L}(x_1, \theta\gamma_1 + (1 - \theta)\gamma_2),\ \mathcal{L}(x_2, \theta\gamma_1 + (1 - \theta)\gamma_2),\ \cdots,\ \mathcal{L}(x_n, \theta\gamma_1 + (1 - \theta)\gamma_2)\}\\ &= \inf\{\theta\mathcal{L}(x_1, \gamma_1) + (1-\theta)\mathcal{L}(x_1, \gamma_2),\ \cdots,\ \theta\mathcal{L}(x_n, \gamma_1) + (1-\theta)\mathcal{L}(x_n, \gamma_2)\}\\ &\geqslant\theta\inf\{\mathcal{L}(x_1, \gamma_1),\ \mathcal{L}(x_2, \gamma_1), \cdots,\ \mathcal{L}(x_n, \gamma_1)\} + (1 - \theta)\inf\{\mathcal{L}(x_1, \gamma_2),\ \mathcal{L}(x_2, \gamma_2), \cdots,\ \mathcal{L}(x_n, \gamma_2)\}\\ &=\theta g(\gamma_1) + (1 - \theta)g(\gamma_2) \end{aligned}

• 第一行：之前讲过了，略

• 第二行
注意到 L ( x i , γ ) \mathcal{L}(x_i, \gamma) 中， x i x_i 的值已经固定了 ∴ f ( x ) ,   c i ( x ) ,   h i ( x ) \therefore f(x),\ c_i(x),\ h_i(x) 都是常数，我们分别记为 r , p , q r, p, q 。则:
L ( x i , γ ) = ∑ λ i p i + ∑ μ j q j + r \mathcal{L}(x_i, \gamma) = \sum{\lambda_i p_i} + \sum{\mu_j q_j} + r
显然， L \mathcal{L} 是一个仿射函数，而我们知道仿射函数又凸又凹，所以有:
L ( x n , θ γ 1 + ( 1 − θ ) γ 2 ) ⩾ θ L ( x n , γ 1 ) + ( 1 − θ ) L ( x n , γ 2 ) \mathcal{L}(x_n, \theta\gamma_1 + (1 - \theta)\gamma_2) \geqslant \theta \mathcal{L}(x_n, \gamma_1) + (1 - \theta) \mathcal{L}(x_n, \gamma_2)
整理一下，就有了第二行。

• 第三行
从第二行到第三行，运用了一个简单的数学原理:
m i n { a i + b i } ⩾ m i n { a } + m i n { b } min\{a_i + b_i\} \geqslant min\{a\} + min\{b\}

## 3.5 对偶函数与原函数的关系

Give the lower bound on optimal value ( p ∗ p^* )

∀ λ ⩾ 0 ⇒ g ( λ , μ ) ⩽ p ∗ (4) \forall \lambda \geqslant 0 \Rightarrow g(\lambda, \mu) \leqslant p^* \tag{4}

∵ c i ( x ^ ) ⩽ 0 ,   h i ( x ^ ) = 0 ∴ λ i c i ⩽ 0 , μ i h i = 0 ∴ L ( x ^ , λ , μ ) = f ( x ) + ∑ i = 1 k λ i c i ( x ^ ) + ∑ j = 1 l μ j h j ( x ^ ) ⩽ f ( x ) Meanwhile g ( λ , μ ) = inf ⁡ L , p ∗ = min ⁡ f ∴ g ( λ , μ ) ⩽ L ⩽ p ∗ \begin{aligned} & \because c_i(\hat x) \leqslant 0,\ h_i(\hat x) = 0\\ & \therefore \lambda_ic_i \leqslant 0, \mu_ih_i = 0\\ & \therefore \mathcal{L}(\hat x, \lambda, \mu) = f(x) + \sum_{i = 1}^{k}{\lambda_ic_i(\hat x)} + \sum_{j = 1}^{l}{\mu_jh_j(\hat x)} \leqslant f(x)\\ & \text{Meanwhile}\quad g(\lambda, \mu) = \inf{\mathcal{L}},\quad p^* = \min f\\ & \therefore g(\lambda, \mu) \leqslant \mathcal{L} \leqslant p^* \end{aligned}

# 4. 从原问题到拉格朗日对偶问题

What is the best lower bound that can be obtained from lagrange dual function?

1. 首先我们明确一件事，我们的目的是找到最优解 p ∗ p^*
2. 有时候 p ∗ p^* 其实并不一定能解出来，这种情况下，我们希望可以给出一个尽可能地逼近 p ∗ p^* 的值
3. 既然我们已经知道了 g g 可以给出下界，那么那个值能够尽可能逼近呢？
4. 答案是: max ⁡ g ( λ , μ ) \max g(\lambda, \mu) ( s . t   λ ⩾ 0 s.t\ \lambda \geqslant 0 )

Primal Problem min ⁡ x ∈ R n f ( x ) s . t c i ( x ) ⩽ 0 , i ∈ [ 1 , k ] h j ( x ) = 0 , j ∈ [ 1 , l ] (1) \large \text{Primal Problem}\\ \begin{aligned} \\ &\min_{x \in \mathbb{R^n}}{f(x)}\\ &s.t \quad c_i(x) \leqslant 0, i \in [1, k]\\ &\qquad h_j(x) = 0, j \in [1, l]\\ \end{aligned} \tag{1}

Lagrange Dual Problem max ⁡ λ , μ g ( λ , μ ) = max ⁡ λ , μ inf ⁡ x ∈ D L ( x , λ , μ ) s . t λ i ⩾ 0 ,   i = 1 , 2 , … , k (5) \large \text{Lagrange Dual Problem}\\ \begin{aligned} \\ &\max_{\lambda, \mu}g(\lambda, \mu) = \max_{\lambda, \mu}\inf_{x\in D}{\mathcal{L}(x, \lambda, \mu)}\\ &s.t \quad \lambda_i \geqslant 0,\ i = 1, 2,\dots, k\\ \end{aligned} \tag{5}

1. 原问题的约束太多了，又是等式又是不等式
2. 问题 (1) 不一定是一个凸优化问题，所以即便找到了貌似是 p ∗ p^* 的点，也很可能不过是个局部最优点。

1. 约束少了，这是很明显的，少了 l l 个，而且剩下的 k k 个约束也比原来的简单一些
2. 最最重要的，问题 (5) 一定是一个凸优化问题，所以很多凸优化的手段全可以用上了

d ∗ = p ∗ d^* = p^* ？如果真能这样那简直就是天堂了，显然一般情况下这两个是不同的，但是在满足某些特殊条件时，这个等式就可以成立了。具体这些条件是什么，我们在接下来的几节里再来谈谈。

# 5. 弱对偶与强对偶

## 5.1 弱对偶

d ∗ ⩽ p ∗ (6) d^* \leqslant p^* \tag{6}

• 如果 p ∗ = − ∞ p^* = -\infty ，则 d ∗ = − ∞ d^* = -\infty
• 如果 d ∗ = + ∞ d^* = +\infty ，则 p ∗ = + ∞ p^* = +\infty

## 5.2 强对偶

d ∗ = p ∗ (7) d^* = p^* \tag{7}

# 6. 关于强对偶和最优的一些条件

## 6.1 Convex + Slater

1. 原问题是凸优化
2. 满足 Slater 条件

1. f ( x ) f(x) 是凸函数
2. c i ( x ) c_i(x) 是凸函数
3. h j ( x ) h_j(x) 是仿射函数

∃ x ∈ D c i ( x ) < 0 , i ∈ [ 1 , k ] A x = b (8) \begin{aligned} &\exists x \in D\\ &c_i(x) < 0, i \in [1,k]\\ &Ax = b \end{aligned} \tag{8}

1. 凸优化
2. 强或弱 Slater 条件

## 6.2 KKT 条件

• Case 1: 原问题为非凸问题情况下的 KKT
• Case 2: 原问题为凸问题情况下的 KKT

### 6.2.1 非凸问题下的 KKT

1. 原问题中的函数均可微
2. 强对偶成立
3. x ∗ x^* ( λ ∗ , μ ∗ ) (\lambda^*, \mu^*) 分别为原问题和对偶问题的某对最优解

c i ( x ∗ ) ⩽ 0 i = 1 , … , k h i ( x ∗ ) = 0 i = 1 , … , l λ i ∗ ⩾ 0 i = 1 , … , k λ i ∗ c i ( x ∗ ) = 0 i = 1 , … , k ∇ f ( x ∗ ) + ∑ i = 1 k λ i ∗ ∇ c i ( x ∗ ) + ∑ i = 1 l μ i ∗ ∇ h i ( x ∗ ) = 0 \begin{aligned} &c_i(x^*) \leqslant 0 &i = 1, \dots, k\\ &h_i(x^*) = 0 &i = 1, \dots, l\\ &\lambda_i^* \geqslant 0 &i = 1, \dots, k\\ &\lambda_i^*c_i(x^*) = 0 &i = 1, \dots, k\\ &\nabla f(x^*) + \sum_{i=1}^{k}\lambda_i^*\nabla c_i(x^*) + \sum_{i=1}^{l}\mu_i^*\nabla h_i(x^*) = 0 \end{aligned}

f ( x ∗ ) = g ( λ ∗ , μ ∗ ) = inf ⁡ x L ( x ∗ , λ ∗ , μ ∗ ) \begin{aligned} &&f(x^*) &= g(\lambda^*, \mu^*)\\ && &= \inf_{x}{\mathcal{L}(x^*, \lambda^*, \mu^*)}\\ \end{aligned}

f ( x ∗ ) ⩽ L ( x ∗ , λ ∗ , μ ∗ ) = f ( x ∗ ) + ∑ i = 1 k λ i ∗ c i ( x ∗ ) + ∑ i = 1 l μ i ∗ h i ( x ∗ ) \begin{aligned} &&f(x^*) &\leqslant \mathcal{L}(x^*, \lambda^*, \mu^*)\\ && &= f(x^*) + \sum_{i=1}^{k}\lambda_i^*c_i(x^*) + \sum_{i=1}^{l}\mu_i^*h_i(x^*) \end{aligned}

f ( x ∗ ) + ∑ i = 1 k λ i ∗ c i ( x ∗ ) + ∑ i = 1 l μ i ∗ h i ( x ∗ ) ⩽ f ( x ∗ ) f(x^*) + \sum_{i=1}^{k}\lambda_i^*c_i(x^*) + \sum_{i=1}^{l}\mu_i^*h_i(x^*) \leqslant f(x^*)

f ( x ∗ ) = g ( λ ∗ , μ ∗ ) = inf ⁡ x f ( x ∗ ) + ∑ i = 1 k λ i ∗ c i ( x ∗ ) + ∑ i = 1 l μ i ∗ h i ( x ∗ ) = f ( x ∗ ) + ∑ i = 1 k λ i ∗ c i ( x ∗ ) + ∑ i = 1 l μ i ∗ h i ( x ∗ ) = f ( x ∗ ) \begin{aligned} &&f(x^*) &= g(\lambda^*, \mu^*)\\ && &= \inf_{x}{f(x^*) + \sum_{i=1}^{k}\lambda_i^*c_i(x^*) + \sum_{i=1}^{l}\mu_i^*h_i(x^*)}\\ && &= f(x^*) + \sum_{i=1}^{k}\lambda_i^*c_i(x^*) + \sum_{i=1}^{l}\mu_i^*h_i(x^*)\\ && &= f(x^*) \end{aligned}

λ i c i ( x ) = 0 \lambda_ic_i(x) = 0

### 6.2.2 凸问题下的 KKT

1. 若原问题是Convex的
2. ∃ x ^ , λ ^ , μ ^ \exists \hat x, \hat \lambda, \hat \mu 满足:
c i ( x ^ ) ⩽ 0 i = 1 , … , k h i ( x ^ ) = 0 i = 1 , … , l λ ^ i ⩾ 0 i = 1 , … , k λ ^ i c i ( x ^ ) = 0 i = 1 , … , k ∇ f ( x ^ ) + ∑ i = 1 k λ ^ i ∇ c i ( x ^ ) + ∑ i = 1 l μ ^ i ∇ h i ( x ^ ) = 0 \begin{aligned} &c_i(\hat x) \leqslant 0 &i = 1, \dots, k\\ &h_i(\hat x) = 0 &i = 1, \dots, l\\ &\hat \lambda_i \geqslant 0 &i = 1, \dots, k\\ &\hat \lambda_i c_i(\hat x) = 0 &i = 1, \dots, k\\ &\nabla f(\hat x) + \sum_{i=1}^{k}\hat \lambda_i \nabla c_i(\hat x) + \sum_{i=1}^{l}\hat\mu_i \nabla h_i(\hat x) = 0 \end{aligned}

## 6.3 几种条件之间的关系的总结

1. 对于任意问题
强对偶 + 最优解 ⇒ \Rightarrow KKT条件

2. 对于 Convex + 可微 的问题
KKT 条件 ⇒ \Rightarrow 强对偶 + 最优解

3. Convex + Slater ⇒ \Rightarrow 强对偶

# 7. 个人总结

• 322
点赞
• 532
收藏
觉得还不错? 一键收藏
• 打赏
• 55
评论
03-26
12-10 1万+
11-18
04-06 5466
03-15 9167
11-09 969
08-04 8891
04-01 6184
05-31
08-10
08-03
08-08
10-13 6384

### “相关推荐”对你有帮助么？

• 非常没帮助
• 没帮助
• 一般
• 有帮助
• 非常有帮助

frostime

¥2 ¥4 ¥6 ¥10 ¥20

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。