为什么拉格朗日对偶函数一定是凹函数(逐点下确界)

最新推荐文章于 2021-04-08 01:34:01 发布

置顶 u014540876

最新推荐文章于 2021-04-08 01:34:01 发布

阅读量1.9w

点赞数 67

分类专栏：机器学习算法文章标签：机器学习凸优化对偶拉格朗日逐点下确界

本文链接：https://blog.csdn.net/u014540876/article/details/79153913

版权

机器学习算法专栏收录该内容

7 篇文章

订阅专栏

本文详细证明了拉格朗日对偶函数的凹性，并解释了该性质与原始优化问题的具体函数形式无关。通过对拉格朗日函数的凹性的分析，进一步揭示了对偶函数的本质。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载请注明出处：http://mp.blog.csdn.net/mdeditor

一、问题描述

首先以不严谨的方式给出标准形式的优化问题（具体请参考《凸优化》——Boyd，第五章），：

$min f_0(x)$

$s.t.\quad f_i(x)\le0,\quad i = 1, 2, \cdot\cdot\cdot, m$

$\qquad h_i(x)=0,\quad i = 1, 2, \cdot\cdot\cdot, p$

然后给出拉格朗日函数：
$L(x,\lambda,\nu)=f_0(x)+\sum_{i=1}^{m}\lambda_{(i)}f_i(x)+\sum_{i=1}^{p}\nu_{(i)}h_i(x) \qquad (公式1)$
最后给出对偶函数：
$g(\lambda,\nu)=\inf\limits_{x\in D}L(x,\lambda,\nu)=\inf\limits_{x\in D}(f_0(x)+\sum_{i=1}^{m}\lambda_{(i)}f_i(x)+\sum_{i=1}^{p}\nu_{(i)}h_i(x)) \qquad (公式2)$
我们要证明的是下面的命题：
命题：拉格朗日对偶函数一定是凹函数，且其凹性与最优化函数和约束函数无关。

说明：上述两个公式中， $\lambda_{(i)}$ 表示的是m维向量 $\lambda$ 的第i个分量，而后面的 $\lambda_{i}$ 表示的是 $\lambda$ 的一个具体值，是一个向量。

二、证明

证明：要证对偶函数一定是凹函数，根据凹函数的定义，就是要证

$g(\theta\lambda_1+(1-\theta)\lambda_2,\theta\nu_1+(1-\theta)\nu_2)\ge\theta g(\lambda_1,\nu_1)+(1-\theta)g(\lambda_2,\nu_2),\quad\theta\in R\quad(公式3)$

根据对偶函数的定义可知，对偶函数是拉格朗日函数在把 $\lambda$ 和 $\nu$ 当做常量， $x$ 变化时的最小值，如果拉格朗日函数没有最小值（可以认为最小值为 $-\infty$ )，则对偶函数取值为 $-\infty$ ，所以，可以把对偶函数按照下面的方式表达：
$g(\lambda,\nu)=min\{L(x_1,\lambda,\nu),L(x_2,\lambda,\nu),\cdot\cdot\cdot,L(x_n,\lambda,\nu)\},\quad n=+\infty\qquad(公式4)$

即无穷多个x变化时，拉格朗日函数的最小值。
另外，由于把 $\lambda$ 和 $\nu$ 分开来写，式子太长了，为了简便，记 $\gamma = (\lambda, \nu)$ ，接下来证明（公式3）：

$g(\theta\gamma_1+(1-\theta)\gamma_2)=min\{L(x_1,\theta\gamma_1+(1-\theta)\gamma_2),L(x_2,\theta\gamma_1+(1-\theta)\gamma_2),\cdot \cdot\cdot,L(x_n,\theta\gamma_1+(1-\theta)\gamma_2)\}\qquad(公式5)$

$\ge min\{\theta L(x_1,\gamma_1)+(1-\theta)L(x_1,\gamma_2),\theta L(x_2,\gamma_1)+(1-\theta)L(x_2,\gamma_2),\cdot\cdot\cdot,\theta L(x_n,\gamma_1)+(1-\theta)L(x_n,\gamma_2)\}\quad (公式6)$

$\ge\theta min\{L(x_1,\gamma_1),L(x_2,\gamma_1),\cdot\cdot\cdot,L(x_n,\gamma_1)\}+(1-\theta)min\{L(x_1,\gamma_2),L(x_2,\gamma_2),\cdot\cdot\cdot,L(x_n,\gamma_2)\}\quad (公式7)$

$=\theta g(\gamma_1)+(1-\theta)g(\gamma_2)\quad (公式8)$

至此，（公式3）得证，所以原命题得证。
证毕.

三、解释证明过程

接下来，解释一下这个证明：

（公式5）到（公式6）是因为 $L(x_i, \gamma)$ 中的 $x$ 的值已固定，所以 $f_i(x), i = 0, 1, 2,\cdot\cdot\cdot, m$ 和 $h_i(x), i = 0, 1, 2,\cdot\cdot\cdot, p$ 都应该看做常数，所以此时的 $L(x_i, \gamma)$ 是 $\gamma$ 的仿射函数，而仿射函数是既凸且凹的，对（公式5）右边中的每一个拉格朗日函数都运用其凹性，就可以得到（公式6）.
而从（公式6）到（公式7）运用的是一个简单的数学原理：

设有两个实数集合 $a$ 和 $b$ :

$a=\{a_1,a_2,\cdot\cdot\cdot,a_n\}\\b=\{b_1,b_2,\cdot\cdot\cdot,b_n\}$

则对于所有的 $i$ , $j$ 有：

$min\{a_i+b_j\}\ge min\{a\}+min\{b\},\quad i,j\in N^+$

（公式7）到（公式8）由公式4可得。

最后通过图像来解释:
这里写图片描述
上图中，每条直线表示的是一个 $L(x_i, \gamma)$ 。假想有一条平行于上图中 $y$ 轴方向的直线，这条直线沿着 $x$ 轴方向平移，这条直线与上图中所有的 $L(x_i, \gamma)$ 相交，这些交点的最小值（ $y$ 轴方向的值，因为 $y$ 轴方向对应于 $L(x_i, \gamma)$ 的值， $x$ 轴方向对应于每一个 $x_i$ ）就是 $g(\gamma)$ ，也就是（公式4）要表达的意思。
由于这条直线每到一处，就对应于一个 $x_i$ ，从而逐点逐点地获得 $g(\gamma)$ ，所以就称对偶函数是一族关于 $\gamma$ 的仿射函数的逐点下确界。