之前说到过拉格朗日乘数法以及推导过程,那么今天要说的就是拉格朗日对偶性以及KKT条件
1.Lagrange multipliers
一句话说,拉格朗日乘数法就是用来解决条件极值的一个方法,且约束条件都是等式(equality)的形式;由拉格朗日乘数法通常用来解决一些凸优化(convex optimization)问题,所以一般情况下求解的都是极小值,即 min ω f ( ω ) \min_{\omega} f(\omega) minωf(ω)
顺便说一句,convex function 的图像如下:
请看下面这个优化问题:
min ω f ( ω ) s . t . h i ( ω ) = 0 , i = 1 , ⋯ , l . \begin{aligned} \min_{\omega} \;\;\;f(\omega)&\\ s.t. \;\;\;h_i(\omega)&=0,i=1, \cdots,l. \end{aligned} ωminf(ω)s.t.hi(ω)=0,i=1,⋯,l.
其中 ω 是 一 个 向 量 \omega是一个向量 ω是一个向量;很明显这是一个条件(等式)极值问题,且用拉格朗日乘数法就能解决。
L a n g r a n g i a n \bf{Langrangian} Langrangian
L ( ω , β ) = f ( ω ) + ∑ i = 1 l β i h i ( ω ) \mathcal{L}(\omega,\beta) = f(\omega)+\sum^l_{i=1}\beta_ih_i(\omega) L(ω,β)=f(ω)+i=1∑lβihi(ω)
其中 β i \beta_i βi是拉格朗日乘子;然后对式子中所有的参数求偏导,令其为0(推导)求解出所有参数;
∂ L ∂ ω i = 0 ; ∂ L ∂ β i = 0 \frac{\partial\mathcal{L}}{\partial\omega_i}=0;\;\;\;\frac{\partial\mathcal{L}}{\partial\beta_i}=0 ∂ωi∂L=0;∂βi∂L=0
2.Generalized Lagrangian
请看如下优化问题:
min ω f ( ω ) s . t . g i ( ω ) ≤ 0 , i = 1 , ⋯ , k . h i ( ω ) = 0 , i = 1 , ⋯ , l . (01) \begin{aligned} \min_{\omega} \;\;\;f(\omega)&\tag {01}\\ s.t. \;\;\;g_i(\omega)&\leq0,i=1, \cdots,k.\\[2ex] h_i(\omega)&=0,i=1, \cdots,l. \end{aligned} ωminf(ω)s.t.gi(ω)hi(ω)≤0,i=1,⋯,k.=0,i=1,⋯,l.(01)
与之前明显不同的就是多了不等式的约束条件;为了解决这个问题,下面我们就要定义广义的拉格朗日乘数法(Generalized Lagrangian)。
G e n e r a l i z e d L a g r a n g i a n \bf{Generalized Lagrangian} GeneralizedLagrangian
L ( ω , α , β ) = f ( ω ) + ∑ i = 1 k α i g i ( ω ) + ∑ i = 1 l β i h i ( ω ) (02) \mathcal{L}(\omega,\alpha,\beta) = f(\omega)+\sum^k_{i=1}\alpha_ig_i(\omega)+\sum^l_{i=1}\beta_ih_i(\omega)\tag {02} L(ω,α,β)=f(ω)+i=1∑kαigi(ω)+i=1∑lβihi(ω)(02)
其中 α i \alpha_i αi和 β i \beta_i βi都是拉格朗日乘子;接下来就是进行求解,然而求解方法却与之前大相径庭了。
3.Primal and dual optimization problem
3.1 Primal optimization problem
定义:
θ p ( ω ) = max α , β : α i ≥ 0 L ( ω , α , β ) (03) \theta_p(\omega)=\max_{\alpha,\beta:\alpha_i\geq0}\mathcal{L}(\omega,\alpha,\beta)\tag {03} θp(ω)=α,β:αi≥0maxL(ω,α,β)(03)
这个式子表示的含义是:求 L ( ω , α , β ) \mathcal{L}(\omega,\alpha,\beta) L(ω,α,β)的最大值, α , β \alpha,\beta α,β作为自变量(与 ω \omega ω无关),求得的结果 θ p \theta_p θp是关于 ω \omega ω的函数
我们现在来做这样一个假设,存在 g i g_i gi或 h i h_i hi使得原约束条件不成立,即( g i ( ω ) > 0 o r h i ( ω ) ≠ 0 g_i(\omega)>0\;or\;h_i(\omega)\ne0 gi(ω)>0orhi(ω)=0),如果是这样的话 θ p \theta_p θp会发生什么变化呢?
如果 g i ( ω ) > 0 g_i(\omega)>0 gi(ω)>0,为了求得 L \mathcal{L} L的最大值,只需要取 α i \alpha_i αi为无穷大,则此时 L \mathcal{L} L最大,但又没有意义;同样,如果 h i ( ω ) ≠ 0 h_i(\omega)\neq0 hi(ω)=0,取 β \beta β为无穷大( h i h_i hi与<