拉格朗日乘子法（Lagrange Multiplier）详解以及乘子lambda的意义

最新推荐文章于 2024-08-28 14:06:02 发布

超级冷兔

最新推荐文章于 2024-08-28 14:06:02 发布

阅读量3.1w

点赞数 24

分类专栏：数学文章标签：数学机器学习优化

本文链接：https://blog.csdn.net/u014792304/article/details/78396955

版权

数学专栏收录该内容

3 篇文章 1 订阅

订阅专栏

注：目前开通个人网站朝思录，之后的博文将在上面更新，CSDN博客会滞后一点

主要介绍经典拉格朗日乘子法的原理，之后讨论该方法中出现的参数 $\lambda$ 的意义

拉格朗日乘子法的数学原理

经典拉格朗日乘子法是下面的优化问题（注： $\boldsymbol x$ 是一个向量）：
$\begin{matrix}\min_{\boldsymbol x} f(\boldsymbol x)\\[2ex]s.t. g(\boldsymbol x)=0\end{matrix} \tag{1}$

直观上理解，最优解 $\boldsymbol x_{optimal}$ 一定有这样的性质，以 $\boldsymbol x$ 是二维变量为例：（网上下的图。为了符合行文风格，这里的 $g (x, y) = c$ 应为 $g (x, y) = 0$ ）
f与g的等高线图
这里采用等高线方式描述 $f (x, y)$ （对方程 $f (x, y) = d$ 对不同 $d$ 绘图），并绘制约束条件 $g (x, y) = 0$ 的曲线。可见，当 $g (x, y) = 0$ 与 $f (x, y)$ 的某条等高线相切时，可取得最优解。

“当 $g (x, y) = 0$ 与 $f (x, y)$ 的某条等高线相切”，是取得最优解的充要条件（前提是 $f (x, y)$ 是凸函数），该条件可拆分成两部分：

$g (x, y)$ 与 $f (x, y)$ 的某条等高线相切
$g (x, y) = 0$

因为 $g (x, y)$ 与 $f (x, y)$ 的某条等高线相切，可等价于寻找使这两个函数梯度方向共线的点，所以上述条件可用方程组描述如下所示：
$\begin{aligned} \begin{cases} \nabla f(\boldsymbol x) = \lambda\nabla g(\boldsymbol x)\\[2ex] g(\boldsymbol x)=0 \end{cases} \end{aligned} \tag{2}$
这时引入拉格朗日函数：
$L(\boldsymbol x,\lambda) = f(\boldsymbol x)+\lambda g(\boldsymbol x) \tag{3}$
该函数有这样的特性：
$\begin{aligned} \begin{cases} \nabla_\boldsymbol xL(\boldsymbol x,\lambda)=\nabla_\boldsymbol x f(\boldsymbol x)+\lambda\nabla_\boldsymbol x g(\boldsymbol x)\\[2ex] \nabla_\lambda L(\boldsymbol x,\lambda) = g(\boldsymbol x) \end{cases} \end{aligned} \tag{4}$
即若令拉格朗日函数的梯度为零，即 $(4)$ 式为零，即可得到方程 $(2)$ ，虽然 $\lambda$ 有所出入但不影响。

系数 $\lambda$ 的作用

另外讨论一下 $(3)$ 式中 $\lambda$ 的意义：

由 $(2)$ 式可以看出， $\lambda$ 在共线的基础上描述了目标函数和约束函数的梯度的长度比值。当然若以 $(4)$ 为基准， $(2)$ 式第一项应写为 $\nabla f(\boldsymbol x) = -\lambda\nabla g(\boldsymbol x)$ ，我们对该等式两边取绝对值如下，以消除正负号可能对读者带来的困扰。
$|\lambda|=|\frac{\nabla f(\boldsymbol x)}{\nabla g(\boldsymbol x)}| \tag{5}$
可以发现，当 $|\lambda|$ 越小， $\nabla g(\boldsymbol x)$ 的模就越大于 $\nabla f(\boldsymbol x)$ 。极端情况下， $|\lambda\to0|$ ，此时 $|\nabla g(\boldsymbol x) |\to \infty$ 。这意味着在 $\boldsymbol x$ 点， $g(\boldsymbol x)$ 几乎是垂直的，对增量非常敏感：当最优值不小心变一点点，条件 $g(\boldsymbol x)=0$ 将严重偏离；若 $|\lambda|$ 很大， $g(\boldsymbol x)$ 几乎是水平的，则其对增量不敏感（若 $g(\boldsymbol x)$ 的轻微偏离不会造成太大的损失，可以适当牺牲约束条件的精确性，来换取更优的解）。