引言
–
首先要明白为什么要引入对偶问题,或者说为什么要将求解原问题转化为其求解对偶问题。
答:这是因为有些优化问题的原问题很难求解或者是原问题无法用现有的优化方法求解,但其对偶优化问题容易求解。所以在讲到SVM(Support Vector Machines),必定要提到Lagrange Dual问题,而且转化为对偶问题后能引入Kernel Fuction,也就是所谓的核函数。
对偶问题在SVM优化中的地位如此重要,而强弱对偶定理在对偶优化问题又占有重要的地位。一般的机器学习在讲到SVM部分时一般只讲如何将最大间隙问题化为其对偶问题,而对对偶问题中的强弱对偶定理一般只给出结论,比如Andrew NG的机器学习公开课讲义。笔者在最优化方法课程中恰好也学到了对偶理论,一般教科书对强对偶定理的初等证明又晦涩难懂,所以想写一下关于此定理相对通俗易懂的证明,也顺便梳理一下自己对强定理证明的理解。
1.优化原问题和其对偶问题
一般带约束优化问题如下:
findx⃗ ∈Rnminf(x⃗ )s.tgi(x⃗ )≤0, i=1,...,k.hj(x⃗ )=0, j=1,...,l.
其对偶(Lagrange Dual)问题如下:
findw⃗ ,v⃗ maxθ(w⃗ ,v⃗ )s.tw⃗ ≥0
其中,
θ(w⃗ ,v⃗ )=inf{
f(x)+∑i=1kwigi(x)+∑