本文从便于理解的角度介绍对偶上升法,略去大部分数学推导,目的是帮助大家看懂论文中的相关部分。
阅读本文前,请先参看这篇博客《共轭函数超简说明》。
对偶函数1
也称为拉格朗日对偶函数(Lagrange dual function)。
拉格朗日量
考虑定义域 D D D上的最小化问题:
m i n i m i z e f 0 ( x ) , x ∈ D minimize\ f_0(x), x\in D minimize f0(x),x∈D
有 m m m个不等式约束,以及 p p p个等式约束:
f i ( x ) ≤ 0 , i = 1 , 2... m f_i(x)\leq0, i=1,2...m fi(x)≤0,i=1,2...m
h i ( x ) = 0 , i = 1 , 2... p h_i(x)=0, i=1,2...p hi(x)=0,i=1,2...p
这个最优化问题的拉格朗日量(Lagrangian)为:
L ( x , λ , ν ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p ν i h i ( x ) L(x,\lambda,\nu)=f_0(x)+\sum_{i=1}^m\lambda_if_i(x) + \sum_{i=1}^p\nu_ih_i(x) L(x,λ,ν)=f0(x)+i=1∑mλifi(x)+i=1∑pνihi(x)
其物理意义参见这篇博客《拉格朗日乘子法超简说明》。
其中 λ , ν \lambda, \nu λ,ν称为拉格朗日乘子(Lagrange multiplier)或者对偶变量(dual variable), x x x称为原变量(primal variable)。
拉格朗日量是关于 x , λ , ν x,\lambda, \nu x,λ,ν的函数。
拉格朗日对偶函数
对于定义域 D D D上 x x x的所有取值,拉格朗日量的最小值即为拉格朗日对偶函数(dual function):
g ( λ , ν ) = inf x ∈ D L ( x , λ , ν ) g(\lambda, \nu)=\inf_{x\in D}L(x,\lambda, \nu) g(λ,ν)=x∈DinfL(x,λ,ν)
拉格朗日对偶函数是关于对偶变量 λ , ν \lambda, \nu λ,ν的函数
拉格朗日对偶函数可以看做是 x x x取不同值时一族曲线的下界(绿线)。
当 λ ≥ 0 \lambda\geq0 λ≥0时,对于最优化问题的解 x ˉ \