东边有棵树的博客# 原问题与对偶问题的定义和关系
(1)原问题与对偶问题定义
一个优化问题的原问题和对偶问题定义如下:
原问题:
最
小
化
:
f
(
w
)
限
制
条
件
:
{
g
i
(
w
)
≤
0
i
=
1
⋯
K
h
i
(
w
)
=
0
i
=
1
⋯
M
(1)
最小化:~~~f(w)\\限制条件: \begin{cases} g_i(w)\leq0~~~i=1\cdots K\\ h_i(w)=0~~~i=1\cdots M \end{cases}\tag{1}
最小化: f(w)限制条件:{gi(w)≤0 i=1⋯Khi(w)=0 i=1⋯M(1)
定义一函数
L
(
w
,
α
,
β
)
L(w,\alpha,\beta)
L(w,α,β)为:
L
(
w
,
α
,
β
)
=
f
(
w
)
+
∑
i
=
1
K
α
i
g
i
(
w
)
+
∑
i
=
1
M
β
i
h
i
(
w
)
(2)
L(w,\alpha,\beta)=f(w)+ \sum_{i=1}^K\alpha_ig_i(w)+\sum_{i=1}^M\beta_ih_i(w)\tag{2}
L(w,α,β)=f(w)+i=1∑Kαigi(w)+i=1∑Mβihi(w)(2)
当然可以用矩阵写成简单的形式:
L
(
w
,
α
,
β
)
=
f
(
w
)
+
α
T
g
(
w
)
+
β
T
h
(
w
)
(3)
L(w,\alpha,\beta)=f(w)+\alpha^Tg(w)+\beta^Th(w) \tag{3}
L(w,α,β)=f(w)+αTg(w)+βTh(w)(3)
公式
(
3
)
(3)
(3)中
α
T
\alpha^T
αT和
g
(
w
)
g(w)
g(w)都是
K
K
K维的,而
β
T
\beta^T
βT和
h
(
w
)
h(w)
h(w)都是
M
M
M维的。则原问题的对偶问题为:
最
大
化
θ
(
α
,
β
)
=
inf
所
有
w
{
L
(
w
,
α
,
β
)
}
限
制
条
件
:
α
i
≥
0
(
i
=
1
⋯
K
)
(4)
最大化\quad\theta(\alpha,\beta)=\inf \limits_{所有w}\{~L(w,\alpha,\beta)~\}\\限制条件:\alpha_i~\ge~0\quad(i=1\cdots K)\tag{4}
最大化θ(α,β)=所有winf{ L(w,α,β) }限制条件:αi ≥ 0(i=1⋯K)(4)
其中
inf
所
有
w
{
L
(
w
,
α
,
β
)
}
\inf \limits_{所有w}\{~L(w,\alpha,\beta)~\}
所有winf{ L(w,α,β) }的意思是在限制
α
\alpha
α和
β
\beta
β的情况下遍历所有的
w
w
w求最小值,即每确定一个
α
\alpha
α和
β
\beta
β都能算出一个最小值,即每一个
α
\alpha
α和
β
\beta
β都对应一个值,很明显,这是
α
\alpha
α和
β
\beta
β的函数,故写作
θ
(
α
,
β
)
\theta(\alpha,\beta)
θ(α,β)。那么公式
(
4
)
(4)
(4)是针对所有的
α
\alpha
α和
β
\beta
β求最大值,即在所有的最小值中找最大的。
(2)原问题和对偶问题的关系
定理:如果
w
∗
w^*
w∗是原问题的解,而
α
∗
\alpha^*
α∗,
β
∗
\beta^*
β∗是对偶问题的解,则有:
f
(
w
∗
)
≥
θ
(
α
∗
,
β
∗
)
(5)
f(w^*)\ge\theta(\alpha^*,\beta^*)\tag{5}
f(w∗)≥θ(α∗,β∗)(5)
定理证明如下:
θ
(
α
∗
,
β
∗
)
=
inf
所
有
w
{
L
(
w
,
α
∗
,
β
∗
)
}
≤
L
(
w
∗
,
α
∗
,
β
∗
)
=
f
(
w
∗
)
+
∑
i
=
1
K
α
i
∗
g
i
(
w
∗
)
+
∑
i
=
1
M
β
i
∗
h
i
(
w
∗
)
利
用
原
问
题
和
对
偶
问
题
的
限
制
条
件
可
知
:
α
i
∗
≥
0
,
g
i
(
w
∗
)
≤
0
,
h
i
(
w
∗
)
=
0
进
而
可
得
:
∑
i
=
1
K
α
i
∗
g
i
(
w
∗
)
≤
0
,
∑
i
=
1
M
β
i
∗
h
i
(
w
∗
)
=
0
最
终
可
得
:
θ
(
α
∗
,
β
∗
)
≤
f
(
w
∗
)
−
证
毕
\theta(\alpha^*,\beta^*)=\inf\limits_{所有w}\{~L(w,\alpha^*,\beta^*)~\}\\ \leq L(w^*,\alpha^*,\beta^*)\\ =f(w^*)+\sum_{i=1}^K\alpha_i^*g_i(w^*)+\sum_{i=1}^M\beta_i^*h_i(w^*)\\ 利用原问题和对偶问题的限制条件可知: \\\alpha_i^*\ge0,g_i(w^*)\leq0,h_i(w^*)=0\\ 进而可得:\\ \sum_{i=1}^K\alpha_i^*g_i(w^*)\leq0,\sum_{i=1}^M\beta_i^*h_i(w^*)=0\\ 最终可得:\theta(\alpha^*,\beta^*)\leq f(w^*)-证毕
θ(α∗,β∗)=所有winf{ L(w,α∗,β∗) }≤L(w∗,α∗,β∗)=f(w∗)+i=1∑Kαi∗gi(w∗)+i=1∑Mβi∗hi(w∗)利用原问题和对偶问题的限制条件可知:αi∗≥0,gi(w∗)≤0,hi(w∗)=0进而可得:i=1∑Kαi∗gi(w∗)≤0,i=1∑Mβi∗hi(w∗)=0最终可得:θ(α∗,β∗)≤f(w∗)−证毕
接下来又有一个定义:
G
=
f
(
w
∗
)
−
θ
(
α
∗
,
β
∗
)
≥
0
G=f(w*)-\theta(\alpha^*,\beta^*)\ge0
G=f(w∗)−θ(α∗,β∗)≥0,
G
G
G叫作原问题与对偶问题的间距,对于某些特定的优化问题,可以证明
G
=
0
G=0
G=0。
强对偶定理:若 f ( w ) f(w) f(w)为凸函数,且 g ( w ) = A w + b g(w)=Aw+b g(w)=Aw+b(线性), h ( w ) = C w + d h(w)=Cw+d h(w)=Cw+d(线性),则此优化问题原问题与对偶问题的间距为零,即 f ( w ∗ ) = θ ( α ∗ , β ∗ ) f(w^*)=\theta(\alpha^*,\beta^*) f(w∗)=θ(α∗,β∗),此证明比较麻烦,这里不作证明。这时我们就可以将原问题的求解转化到对偶问题的求解上来。