拉格朗日乘子法与拉格朗日对偶函数

海棠未语

于 2024-08-27 20:46:42 发布

阅读量626

点赞数 27

文章标签：算法机器学习人工智能学习

本文链接：https://blog.csdn.net/qq_43016560/article/details/141393008

版权

一、拉格朗日乘子法

在数学优化问题中，拉格朗日乘数法（Lagrange multipliers ）是一种用于求解等式约束条件下局部最小（最大）值的策略。它的基本思想是通过将含约束条件的优化问题转化为无约束条件下的优化问题，以便于得到各个未知变量的梯度，进而求得极值点。

拉格朗日乘法的基本形态：求函数 $z=f(x,y)在约束\phi（x,y）=0$ 下的条件极值问题，可以转化为函数
$L(x,y,\lambda)=f(x,y)+\lambda\phi(x,y)$ 的无条件极值。

    由于计算一个函数的无条件极值是很容易的（通过对函数的各个变量求偏导数，然后令所有的偏导数都为0，解这个方程组即可），所以拉格朗日乘法通过将条件极值问题转化为无条件极值问题，从而很好的解决了条件极值问题。

二、拉格朗日函数应用示例

此处以麻省理工学院数学课程的一个实例来作为介绍拉格朗日乘数法。

求双曲线xy=3上离远点最近的点。
在这里插入图片描述
取双曲线上任意一点 $(x, y)$ 到原点的距离 $d=\sqrt{x^2+y^2}$ ,所以这个问题实际上是在 $x y = 3$ 的约束下，求得 $d=\sqrt{x^2+y^2}$ 的最小值，它等价于求 $z=x^2+y^2$

我们将 $x^2+y^2=c$ 的曲线族画出来，如下图所示，当曲线族中的圆与 $x y = 3$ 曲线进行相切时，切点到原点的距离最短。也就是说，当 $f (x, y) = c$ 的等高线和双曲线 $g (x, y)$ 相切时，我们可以得到上述优化问题的一个极值。
在这里插入图片描述

先将问题描述为下面的约束优化问题：

$\begin{cases} min & f(x,y)=x^2+y^2\\ s.t.&xy-3=0 \end{cases}$

令
$\phi（x,y）= xy-3$

那么拉格朗日函数为：
$L(x,y,\lambda)=f(x,y) + \phi（x,y）= x^2 + y^2 + \lambda(xy-3)$

对上式中的 $x,y,\lambda$ 分别求偏导，然后令所有的偏导为0，可以得到：
$\begin{cases} \frac{\partial L}{\partial x}=2x+ \lambda y = 0\\ \frac{\partial L}{\partial y} = 2y + \lambda x = 0\\ \frac{\partial L}{\partial \lambda} = xy - 3 = 0 \end{cases}$
求解这个方程组，可以得到两个解：
$\begin{cases} x=\sqrt{3}\\ y=\sqrt{3}\\ \lambda = -2 \end{cases}$

$\begin{cases} x=-\sqrt{3}\\ y=-\sqrt{3}\\ \lambda = -2 \end{cases}$

此时就得到了 $x, y$ 的解。

    拉格朗日乘法特别适用于带有一个或多个等式约束条件的优化问题，我们在学习时更多的应该是了解其优化思想精髓并加以利用，特别是在机器学习中，各种优化理论应用特别广泛。

三、拉格朗日对偶函数 (Lagrange Dual Function)

拉格朗日对偶函数是与原优化问题相对应的一个函数，它是在拉格朗日乘数法中引入的概念。对偶函数提供了一种从不同角度观察和分析原优化问题的方法。

为什么要使用拉格朗日对偶性：

对偶问题的对偶是原问题；
无论原始问题与约束条件是否是凸的，对偶问题都是凹问题，加个负号就变成凸问题了，凸问题容易优化。
对偶问题可以给出原始问题最优解（ $p^*$ ）的一个下界；
当满足一定条件时，原始问题与对偶问题的解是完全等价的；

对偶函数与原函数的关系：

$\geq L(x,\lambda,\nu) \geq g(\lambda,\nu)$

其中：
$f (x)$ 表示原问题约束条件下的函数， $L(x,\lambda,\nu)$ 为拉格朗日函数， $g(\lambda,\nu)$ 为拉格朗日对偶函数

一般优化问题的Lagrange乘子法
$\begin{align} minimize && f_0(x), x \in R^n\\ subject \quad to && f_i(x) \leq 0,\quad i=1,...,m \\ && h_j(x)=0,\quad j=1,...,p \end{align}$

Lagrange函数
$L(x,\lambda,\mu) = f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{j=1}^{p} \nu_i h_j(x)$

此处可以理解为对固定的 $X$ ,Lagrange函数 $L(x,\lambda,\nu)$ 为关于 $\lambda$ 和 $\nu$ 的仿射函数。

Lagrange对偶函数

$g(\lambda,\nu) = inf L(x,\lambda,\nu) = inf ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{j=1}^{p} \nu_i h_j(x))$
对关于 $\lambda$ 和 $\nu$ 的仿射函数逐点求取下确界，可以得出该函数是关于 $\lambda$ 和 $\nu$ 的凹函数。

此处的Lagrange对偶函数是对Lagrange函数，求取下确界。

此时，如果没有下确界，定义：
$g(\lambda, \nu) = - \infty$

根据定义有：对 $\forall \lambda \geq 0$ ， $\forall \nu$ ,若原优化问题有最优解 $p^*$ ,则
$g(\lambda, \nu) \leq p^*$
在这里插入图片描述
图中虚线部分为不等式的约束条件 $f_i (x)$ ,可行域为图中红色部分；

黑色曲线是我们要求的函数在 $\leq 0$ 这个约束条件下的最小值。

此处我们可以给定 $\lambda$ 一个值，如0.1，那么黑色实线部分加上0.1 倍虚线部分的点状线，因此在可行域内，我们总能根据不同的 $\lambda$ ,求出与之对应的 $g(\lambda)$ 的值，如下图
在这里插入图片描述
此处 $g(\lambda)$ 曲线其实就是关于原函数的对偶函数，可以看出是一个凹函数。

原问题是： $inf_{x}f_0(x)$
从而转化为
$\inf_{x} \sup_{\lambda \geq 0} L(x, \lambda)$
此处含义为：对对偶函数 $\lambda) 对\lambda$ 求上界，再对 $x$ 求其下界

强对偶条件：
若要对偶函数的最大值即为原问题的最小值，考察需要满足的条件:

$\begin{aligned} & f_0(x^{\star}) = g(\lambda^{\star},\nu^{\star}) \\ \\ &= \inf_{x}\left(f_0(x) + \sum_{i=1}^{m} \lambda_i^{\star} f_i(x) + \sum_{j=1}^{p} \nu_i^{\star} h_j(x) \right) \\ \\ &\leq f_0(x) + \sum_{i=1}^{m} \lambda_i^{\star} f_i(x^{\star}) + \sum_{j=1}^{p} \nu_i^{\star} h_j(x^{\star}) \\ \\ &\leq f_0(x^{\star}) \end{aligned}$

四、拉格朗日对偶函数示例

原问题为：
$\begin{align} minimize && x^Tx, \quad x \in R^n\\ \quad \quad subject \quad to && Ax=b \end{align}$

对应的Lagrange函数为
$L(x,\nu)=x^Tx + \nu^T(Ax+b)$

对 $L$ 求 $x$ 的偏导，带入 $L$ ，得到对应的Lagrange对偶函数
$\frac{\partial L}{\partial x} = \frac{\partial \left(x^Tx + \nu^T(Ax+b)\right)}{\partial x} = 2X + A^T \nu \overset {\text{令}}= 0 {\Rightarrow} x^* = - \frac{1}{2} A^T \nu$
得出 $x$ 的最优解是 $\frac{1}{2} A^T$ ，代入原式 $L(x,\nu)=x^Tx + \nu^T(Ax+b)$ 可得，

$\begin{array}{l} L(x,\nu)=x^Tx + \nu^T(Ax+b) \\ \\ =\left(- \frac{1}{2} A^T \right)^T \left(- \frac{1}{2} A^T \right) + \nu^T \left (A\left(- \frac{1}{2} A^T \right)- b \right) \\ \\ = \frac{1}{4} \nu^T AA^T\nu - \frac{1}{2} \nu^T AA^T\nu -\nu^Tb \\ \\ = - \frac14 \nu^T AA^T\nu - \nu^T b \\ \\ = g(v) \end{array}$
$g(\nu) = - \frac14 \nu^T AA^T\nu - \nu^T b$

对 $g$ 求 $\nu$ 的偏导，求 $g$ 的极大值，作为原问题的最小值

$\begin{array}{l} \\ \frac{\partial g}{\partial \nu} = \frac{\partial \left( - \frac14 \nu^T AA^T\nu - \nu^T b\right)}{\partial \nu} = - \frac{1}{2} AA^T \nu -b \overset {\text{令}}= 0 \\ \\ {\Rightarrow} AA^T\nu = -2b \\ \\ {\Rightarrow} A^TAA^T\nu = -2A^T b \\ \\ {\Rightarrow} A^T \nu = -2 \left( A^TA\right)^{-1}A^Tb \\ \\ {\Rightarrow} - \frac{1}{2} A^T \nu = \left( A^TA\right)^{-1}A^Tb \\ \\ {\Rightarrow} x^* = \left( A^TA\right)^{-1}A^Tb \end{array}$
得出极小值点 $x^* = \left( A^TA\right)^{-1}A^Tb$ ,代入原函数

$\begin{array}{l} \\ min(x^Tx) \\ \\ = \left( \left( A^TA\right)^{-1}A^Tb \right)^T \left( \left( A^TA\right)^{-1}A^Tb \right) \\ \\ = b^T A\left(A^TA \right)^{-1} \left(A^TA \right)^{-1} A^Tb \\ \\ = b^T A\left(A^TA \right)^{-2} A^Tb \end{array}$