机器学习中的数学——拉格朗日乘子法（一）：等式约束的拉格朗日乘子法

von Neumann

已于 2022-01-23 22:02:48 修改

阅读量1.7w

点赞数 16

分类专栏：机器学习中的数学文章标签：机器学习深度学习支持向量机拉格朗日乘子法最优化

于 2021-08-15 22:53:04 首次发布

本文链接：https://blog.csdn.net/hy592070616/article/details/119720240

版权

机器学习中的数学专栏收录该内容

112 篇文章 877 订阅

订阅专栏

分类目录：《机器学习中的数学》总目录
相关文章：
·拉格朗日乘子法（一）：等式约束的拉格朗日乘子法
·拉格朗日乘子法（二）：不等式约束与KKT条件

拉格朗日乘子法是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子，可将有 $d$ 个变量与 $k$ 个约束条件的最优化问题转化为具有 $d + k$ 个变量的无约束优化问题求解。即对于：
$\begin{aligned} \min&\quad f(x)\\ \text{s.t.}&\quad g_i(x)=0\qquad ,i=1,2,\cdots,k \end{aligned}$ 我们定义拉格朗日函数：
$L(x,\lambda)=f(x)+\lambda_ig_i(x)$
我们即可将原优化问题转化为：
$\begin{aligned} \nabla_X L(x,\lambda)&=\nabla f+\lambda_i \nabla g_k=0\\ \nabla_\lambda L(x,\lambda)&=g(x)=0 \end{aligned}$

先考虑一个等式约束的优化问题。假定 $x$ 为 $d$ 维向量，欲寻找 $x$ 的某个取值 $x^*$ ，使目标函数 $f (x)$ 最小且同时满足 $g (x) = 0$ 的约束。从几何角度看，该问题的目标是在由方程 $g (x) = 0$ 确定的 $d - 1$ 维曲面上寻找能使目标函数 $f (x)$ 最小化的点。此时可以得到如下结论：

对于约束曲面上的任意点 $x$ ，该点的梯度 $\nabla g(x)$ 正交于约束曲面
在最优点 $x^*$ ，目标函数在该点的梯度 $\nabla f(x^*)$ 正交于约束曲面

由此可知，在最优点 $x^*$ ，如下图所示，梯度 $\nabla g(x)$ 和 $\nabla f(x^*)$ 的方向必相同或相反，即存在 $\lambda\neq0$ 使得：
$\nabla f(x^*) + \lambda\nabla g(x^*) =0$
$\lambda$ 称为拉格朗日乘子，我们定义拉格朗日函
$L(x,\lambda)=f(x)+\lambda g(x)$
不难发现，将其对 $x$ 的偏导数 $\nabla_x L(x,\lambda)$ 置零即得上式。同时，将其对入的偏导数 $\nabla_\lambda L(x,\lambda)$ 置零即得约束条件 $g (x) = 0$ 。

等式约束
于是，原约束优化问题可转化为对拉格朗日函数 $L(x,\lambda)$ 的无约束优化问题。

现在我们以一个常见的例子来考虑拉格朗日乘子法。假设 $x$ 为2维向量，且：
$g(x)=x_1^2x_2-3=0$
现在我们想求其上的点与原点的最短距离，即：
$min f(x)=x_1^2+x_2^2$
此时，圆（ $f (x)$ ）和曲线（ $g (x)$ ）相切，也就是在该点切线相同：

示例图

此时 $f$ 梯度：
$\nabla f_{x_1}=2x_1 \\ \nabla f_{x_2}=2x_2$
此时 $g$ 梯度：
$\begin{aligned} &\nabla g_{x_1}=2x_1x_2\\ &\nabla g_{x_2}=x_1^2 \end{aligned}$

梯度向量平行，我们可以写为：
$\nabla f=\lambda \nabla g$

所以我们可得：
$\begin{aligned} \nabla f&=\lambda \nabla g\\ g(x)&=x_1^2x_2-3=0 \end{aligned}$
我们构造拉格朗日函数：
$L(x,\lambda)=f(x)+\lambda g(x)$
并利用拉格朗日乘子法即可得到与上式相同的等式：
$\begin{aligned} \nabla_X L(x,\lambda)&=\nabla f+\lambda \nabla g=0\\ \nabla_\lambda L(x,\lambda)&=g(x)=x_1^2x_2-3=0 \end{aligned}$