拉格朗日及其对偶性

(读李航老师的《统计学习方法》总结摘录一些内容)

原始问题与拉格朗日函数

假设 f ( x ) , c i ( x ) , h j ( x ) f(x),c_{i}(x),h_{j}(x) f(x),ci(x),hj(x)是定义在 R n \mathbf{R}^{n} Rn上的连续可微函数。对于一个约束最优化问题:
(1) m i n   f ( x ) s . t .   c i ( x ) ⩽ 0 , i = 1 , 2 , . . . , k   h j = 0 , i = 1 , 2 , . . . , l min\ f\left(x\right) \\ s.t.\ c_{i}(x) \leqslant 0, i=1,2,...,k \\ \ h_{j} = 0, i = 1,2,...,l\tag{1} min f(x)s.t. ci(x)0i=1,2,...,k hj=0,i=1,2,...,l(1)
首先引入拉格朗日函数:
(2) L ( x , α , β ) = f ( x ) + ∑ i = 1 k a i c i ( x ) + ∑ j = 1 l β j h j ( x ) L(x,\alpha,\beta) = f(x) + \sum _{i=1}^{k}a_{i}c_{i}(x) + \sum_{j=1}^{l}\beta_{j}h_{j}(x)\tag{2} L(x,α,β)=f(x)+i=1kaici(x)+j=1lβjhj(x)(2)
这里 x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) T ∈ R n , α i , β j x = (x_{(1)},x_{(2)},...,x{(n)})^{T} \in \mathbf{R}^{n},\alpha_{i},\beta_{j} x=(x(1),x(2),...,x(n))TRn,αi,βj是拉格朗日乘子,其中 α i ⩾ 0 \alpha_{i}\geqslant 0 αi0.考虑x的函数:
(3) θ p ( x ) = m a x α , β : α ⩾ 0 L ( x , α , β ) \theta_{p}(x) = \underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta)\tag{3} θp(x)=α,β:α0maxL(x,α,β)(3)

分两种情况分析问题(3):

  1. 对于 θ p \theta_{p} θp问题,如果给定某一个x,x违反约束最优化问题(1)中的 g i ( w ) , h j ( w ) g_{i}(w),h_{j}(w) gi(w),hj(w)。那么就有:
    (4) θ p ( x ) = m a x α , β : α ⩾ 0 L ( x , α , β ) = + ∞ \theta_{p}(x) = \underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta) = +\infty \tag{4} θp(x)=α,β:α0maxL(x,α,β)=+(4)
    这是因为:对于某个违反约束条件的 x k x_{k} xk,则有 c k ( w ) > 0 , o r   , h k ( w )   ! = 0 c_{k}(w) >0,or\ , h_{k}(w)\, != 0 ck(w)>0,or ,hk(w)!=0。为了使式(4)成立,有下面两种方法。
    - 如果有 c k ( w ) > 0 c_{k}(w) >0 ck(w)>0,则可令 α i → + ∞ \alpha_{i} \rightarrow +\infty αi+。使得其他的 α i , β i = 0 \alpha_{i},\beta_{i}=0 αi,βi=0
    - 如果有 h k ( w )   ! = 0 h_{k}(w)\, != 0 hk(w)!=0,则可令 β j → + ∞ \beta_{j}\rightarrow +\infty βj+。使得其他的 α i , β i = 0 \alpha_{i},\beta_{i}=0 αi,βi=0
  2. 如果所有的x都满足最优化问题(1)的约束条件,可知公式(3) θ p ( x ) = f ( x ) \theta_{p}(x) = f(x) θp(x)=f(x)
    所以公式(3),就可以转换为:
    (5) { f ( x ) , x 满 足 原 始 问 题 约 束 + ∞ , 其 他 \left\{\begin{matrix} f(x),&x满足原始问题约束 \\ +\infty,&其他 \end{matrix}\right.\tag{5} {f(x),+,x(5)

考虑公式(3)的最小化问题

考虑公式(3)的最小化问题有:
(6) m i n x   θ p ( x ) = m i n x m a x α , β : α ⩾ 0 L ( x , α , β ) \underset{x}{min}\ \theta_{p}(x) = \underset{x}{min}\underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta) \tag{6} xmin θp(x)=xminα,β:α0maxL(x,α,β)(6)
问题(4)称为拉格朗日的极小极大问题,它和问题(1)是等价的。这样我们定义原始问题的最优解:
(7) p ∗ = m i n x   θ p ( x ) p^{*} = \underset{x}{min}\ \theta_{p}(x)\tag{7} p=xmin θp(x)(7)

对偶性

定义:
(8) θ D ( α , β ) = m i n x   L ( x , α , β ) \theta_{D} (\alpha,\beta) = \underset{x}{min} \ L(x,\alpha,\beta)\tag{8} θD(α,β)=xmin L(x,α,β)(8)
考虑问题(8)的极大问题:
(9) m a x α , β : α i ⩾ 0 θ D ( α , β ) = m a x α , β : α i ⩾ 0   m i n x   L ( x , α , β ) \underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\theta_{D} (\alpha,\beta) = \underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)\tag{9} α,β:αi0maxθD(α,β)=α,β:αi0max xmin L(x,α,β)(9)
问题(9) m a x α , β : α i ⩾ 0   m i n x   L ( x , α , β ) \underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\ \underset{x}{min}\ L(x,\alpha,\beta) α,β:αi0max xmin L(x,α,β)被称为广义拉格朗日的极大极小问题:
将其表示为:
(10) m a x α , β   θ D ( α , β ) = m a x α , β   m i n x   L ( x , α , β ) s . t .   α i ⩾ 0 ,   i = 1 , 2 , . . . , k \underset{\alpha,\beta}{max}\ \theta_{D} (\alpha,\beta) = \underset{\alpha,\beta}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)\\ s.t. \ \alpha_{i} \geqslant0,\ i = 1,2,...,k\tag{10} α,βmax θD(α,β)=α,βmax xmin L(x,α,β)s.t. αi0, i=1,2,...,k(10)
问题10就是原始问题的对偶问题。定义对偶问题的最优解。
(11) d ∗ = m a x α , β : α i ⩾ 0 θ D ( α , β ) d^{*} =\underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\theta_{D}(\alpha,\beta)\tag{11} d=α,β:αi0maxθD(α,β)(11)

对偶问题和原始问题的关系

在某些情况下原始问题的解 p ∗ p^{*} p和对偶问题的解 d ∗ d^{*} d相同。

  • 考虑原始问题(1)和对偶问题(10)。假设函数 f ( x ) , c i ( x ) f(x),c_{i}(x) f(x),ci(x)是凸函数, h j ( x ) h_{j}(x) hj(x)是仿射函数1。并且假设不等式约束 c i c_{i} ci是严格约束,即存在x,对于所有的i有 c i &lt; 0 c_{i}&lt;0 ci<0,则存在 x ∗ , α ∗ , β ∗ x^{*},\alpha^{*},\beta^{*} x,α,β,使得 x i x^{i} xi是原始问题的解, α ∗ , β ∗ \alpha^{*},\beta^{*} α,β是对偶问题的解。有:
    (12) p ∗ = d ∗ = L ( x ∗ , α ∗ , β ∗ ) p^{*} = d^{*} = L(x^{*},\alpha^{*},\beta^{*})\tag{12} p=d=L(x,α,β)(12)
    如果 x i x^{i} xi是原始问题的解, α ∗ , β ∗ \alpha^{*},\beta^{*} α,β是对偶问题的解,则 x ∗ , α ∗ , β ∗ x^{*},\alpha^{*},\beta^{*} x,α,β必须同时满足满足原始问题和对偶问题的约束,即KTT条件:
    (13) ▽ x L ( x ∗ , α ∗ , β ∗ ) = 0 α ∗ c i ( x ∗ ) = 0 ,   i = 1 , 2 , . . . , k c i ( x ∗ ) ≤ 0 ,   i = 1 , 2 , . . . , k a i ∗ ≥ 0 ,   i = 1 , 2 , . . . , k h j ( x ∗ ) = 0 ,   j = 1 , 2 , . . . , k \triangledown _{x}L(x^{*},\alpha^{*},\beta^{*}) = 0\\ {\color{Red} \alpha^{*}c_{i}(x^{*}) = 0,\ i=1,2,...,k}\\ c_{i}(x^{*})\leq0,\ i=1,2,...,k\\ a_{i}^{*} \geq0,\ i=1,2,...,k\\ h_{j}(x^*) = 0,\ j=1,2,...,k\tag{13} xL(x,α,β)=0αci(x)=0, i=1,2,...,kci(x)0, i=1,2,...,kai0, i=1,2,...,khj(x)=0, j=1,2,...,k(13)
    红色的公式称为KTT对偶互补条件。由此件可知:若 a i ∗ &gt; 0 a_{i}^{*}&gt;0 ai>0,则有 c i ( x ∗ ) = 0 c_{i}(x^{*}) = 0 ci(x)=0

  1. https://blog.csdn.net/qq_20966795/article/details/86307097 ↩︎

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值