(读李航老师的《统计学习方法》总结摘录一些内容)
原始问题与拉格朗日函数
假设
f
(
x
)
,
c
i
(
x
)
,
h
j
(
x
)
f(x),c_{i}(x),h_{j}(x)
f(x),ci(x),hj(x)是定义在
R
n
\mathbf{R}^{n}
Rn上的连续可微函数。对于一个约束最优化问题:
(1)
m
i
n
f
(
x
)
s
.
t
.
c
i
(
x
)
⩽
0
,
i
=
1
,
2
,
.
.
.
,
k
h
j
=
0
,
i
=
1
,
2
,
.
.
.
,
l
min\ f\left(x\right) \\ s.t.\ c_{i}(x) \leqslant 0, i=1,2,...,k \\ \ h_{j} = 0, i = 1,2,...,l\tag{1}
min f(x)s.t. ci(x)⩽0,i=1,2,...,k hj=0,i=1,2,...,l(1)
首先引入拉格朗日函数:
(2)
L
(
x
,
α
,
β
)
=
f
(
x
)
+
∑
i
=
1
k
a
i
c
i
(
x
)
+
∑
j
=
1
l
β
j
h
j
(
x
)
L(x,\alpha,\beta) = f(x) + \sum _{i=1}^{k}a_{i}c_{i}(x) + \sum_{j=1}^{l}\beta_{j}h_{j}(x)\tag{2}
L(x,α,β)=f(x)+i=1∑kaici(x)+j=1∑lβjhj(x)(2)
这里
x
=
(
x
(
1
)
,
x
(
2
)
,
.
.
.
,
x
(
n
)
)
T
∈
R
n
,
α
i
,
β
j
x = (x_{(1)},x_{(2)},...,x{(n)})^{T} \in \mathbf{R}^{n},\alpha_{i},\beta_{j}
x=(x(1),x(2),...,x(n))T∈Rn,αi,βj是拉格朗日乘子,其中
α
i
⩾
0
\alpha_{i}\geqslant 0
αi⩾0.考虑x的函数:
(3)
θ
p
(
x
)
=
m
a
x
α
,
β
:
α
⩾
0
L
(
x
,
α
,
β
)
\theta_{p}(x) = \underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta)\tag{3}
θp(x)=α,β:α⩾0maxL(x,α,β)(3)
分两种情况分析问题(3):
- 对于
θ
p
\theta_{p}
θp问题,如果给定某一个x,x违反约束最优化问题(1)中的
g
i
(
w
)
,
h
j
(
w
)
g_{i}(w),h_{j}(w)
gi(w),hj(w)。那么就有:
(4) θ p ( x ) = m a x α , β : α ⩾ 0 L ( x , α , β ) = + ∞ \theta_{p}(x) = \underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta) = +\infty \tag{4} θp(x)=α,β:α⩾0maxL(x,α,β)=+∞(4)
这是因为:对于某个违反约束条件的 x k x_{k} xk,则有 c k ( w ) > 0 , o r , h k ( w )   ! = 0 c_{k}(w) >0,or\ , h_{k}(w)\, != 0 ck(w)>0,or ,hk(w)!=0。为了使式(4)成立,有下面两种方法。
- 如果有 c k ( w ) > 0 c_{k}(w) >0 ck(w)>0,则可令 α i → + ∞ \alpha_{i} \rightarrow +\infty αi→+∞。使得其他的 α i , β i = 0 \alpha_{i},\beta_{i}=0 αi,βi=0。
- 如果有 h k ( w )   ! = 0 h_{k}(w)\, != 0 hk(w)!=0,则可令 β j → + ∞ \beta_{j}\rightarrow +\infty βj→+∞。使得其他的 α i , β i = 0 \alpha_{i},\beta_{i}=0 αi,βi=0。 - 如果所有的x都满足最优化问题(1)的约束条件,可知公式(3)
θ
p
(
x
)
=
f
(
x
)
\theta_{p}(x) = f(x)
θp(x)=f(x)。
所以公式(3),就可以转换为:
(5) { f ( x ) , x 满 足 原 始 问 题 约 束 + ∞ , 其 他 \left\{\begin{matrix} f(x),&x满足原始问题约束 \\ +\infty,&其他 \end{matrix}\right.\tag{5} {f(x),+∞,x满足原始问题约束其他(5)
考虑公式(3)的最小化问题
考虑公式(3)的最小化问题有:
(6)
m
i
n
x
θ
p
(
x
)
=
m
i
n
x
m
a
x
α
,
β
:
α
⩾
0
L
(
x
,
α
,
β
)
\underset{x}{min}\ \theta_{p}(x) = \underset{x}{min}\underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta) \tag{6}
xmin θp(x)=xminα,β:α⩾0maxL(x,α,β)(6)
问题(4)称为拉格朗日的极小极大问题,它和问题(1)是等价的。这样我们定义原始问题的最优解:
(7)
p
∗
=
m
i
n
x
θ
p
(
x
)
p^{*} = \underset{x}{min}\ \theta_{p}(x)\tag{7}
p∗=xmin θp(x)(7)
对偶性
定义:
(8)
θ
D
(
α
,
β
)
=
m
i
n
x
L
(
x
,
α
,
β
)
\theta_{D} (\alpha,\beta) = \underset{x}{min} \ L(x,\alpha,\beta)\tag{8}
θD(α,β)=xmin L(x,α,β)(8)
考虑问题(8)的极大问题:
(9)
m
a
x
α
,
β
:
α
i
⩾
0
θ
D
(
α
,
β
)
=
m
a
x
α
,
β
:
α
i
⩾
0
m
i
n
x
L
(
x
,
α
,
β
)
\underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\theta_{D} (\alpha,\beta) = \underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)\tag{9}
α,β:αi⩾0maxθD(α,β)=α,β:αi⩾0max xmin L(x,α,β)(9)
问题(9)
m
a
x
α
,
β
:
α
i
⩾
0
m
i
n
x
L
(
x
,
α
,
β
)
\underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)
α,β:αi⩾0max xmin L(x,α,β)被称为广义拉格朗日的极大极小问题:
将其表示为:
(10)
m
a
x
α
,
β
θ
D
(
α
,
β
)
=
m
a
x
α
,
β
m
i
n
x
L
(
x
,
α
,
β
)
s
.
t
.
α
i
⩾
0
,
i
=
1
,
2
,
.
.
.
,
k
\underset{\alpha,\beta}{max}\ \theta_{D} (\alpha,\beta) = \underset{\alpha,\beta}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)\\ s.t. \ \alpha_{i} \geqslant0,\ i = 1,2,...,k\tag{10}
α,βmax θD(α,β)=α,βmax xmin L(x,α,β)s.t. αi⩾0, i=1,2,...,k(10)
问题10就是原始问题的对偶问题。定义对偶问题的最优解。
(11)
d
∗
=
m
a
x
α
,
β
:
α
i
⩾
0
θ
D
(
α
,
β
)
d^{*} =\underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\theta_{D}(\alpha,\beta)\tag{11}
d∗=α,β:αi⩾0maxθD(α,β)(11)
对偶问题和原始问题的关系
在某些情况下原始问题的解 p ∗ p^{*} p∗和对偶问题的解 d ∗ d^{*} d∗相同。
- 考虑原始问题(1)和对偶问题(10)。假设函数
f
(
x
)
,
c
i
(
x
)
f(x),c_{i}(x)
f(x),ci(x)是凸函数,
h
j
(
x
)
h_{j}(x)
hj(x)是仿射函数1。并且假设不等式约束
c
i
c_{i}
ci是严格约束,即存在x,对于所有的i有
c
i
<
0
c_{i}<0
ci<0,则存在
x
∗
,
α
∗
,
β
∗
x^{*},\alpha^{*},\beta^{*}
x∗,α∗,β∗,使得
x
i
x^{i}
xi是原始问题的解,
α
∗
,
β
∗
\alpha^{*},\beta^{*}
α∗,β∗是对偶问题的解。有:
(12) p ∗ = d ∗ = L ( x ∗ , α ∗ , β ∗ ) p^{*} = d^{*} = L(x^{*},\alpha^{*},\beta^{*})\tag{12} p∗=d∗=L(x∗,α∗,β∗)(12)
如果 x i x^{i} xi是原始问题的解, α ∗ , β ∗ \alpha^{*},\beta^{*} α∗,β∗是对偶问题的解,则 x ∗ , α ∗ , β ∗ x^{*},\alpha^{*},\beta^{*} x∗,α∗,β∗必须同时满足满足原始问题和对偶问题的约束,即KTT条件:
(13) ▽ x L ( x ∗ , α ∗ , β ∗ ) = 0 α ∗ c i ( x ∗ ) = 0 , i = 1 , 2 , . . . , k c i ( x ∗ ) ≤ 0 , i = 1 , 2 , . . . , k a i ∗ ≥ 0 , i = 1 , 2 , . . . , k h j ( x ∗ ) = 0 , j = 1 , 2 , . . . , k \triangledown _{x}L(x^{*},\alpha^{*},\beta^{*}) = 0\\ {\color{Red} \alpha^{*}c_{i}(x^{*}) = 0,\ i=1,2,...,k}\\ c_{i}(x^{*})\leq0,\ i=1,2,...,k\\ a_{i}^{*} \geq0,\ i=1,2,...,k\\ h_{j}(x^*) = 0,\ j=1,2,...,k\tag{13} ▽xL(x∗,α∗,β∗)=0α∗ci(x∗)=0, i=1,2,...,kci(x∗)≤0, i=1,2,...,kai∗≥0, i=1,2,...,khj(x∗)=0, j=1,2,...,k(13)
红色的公式称为KTT对偶互补条件。由此件可知:若 a i ∗ > 0 a_{i}^{*}>0 ai∗>0,则有 c i ( x ∗ ) = 0 c_{i}(x^{*}) = 0 ci(x∗)=0