【高等数学笔记】拉格朗日乘数法（Lagrange Multiplier Method）：其实也没那么难嘛

seh_sjlj

已于 2023-01-10 15:36:20 修改

阅读量4.1w

点赞数 111

分类专栏：高等数学文章标签：数学经验分享

于 2022-03-11 13:45:06 首次发布

本文链接：https://blog.csdn.net/qaqwqaqwq/article/details/123421989

版权

高等数学专栏收录该内容

19 篇文章

订阅专栏

一、以二元函数引入

假设有一个二元函数 $z = f (x, y)$ ，现在我们要求它在满足条件 $\phi(x,y)=0$ 条件下的极值。

举个例子，求双曲线 $x y = 2$ 上到点 $(5, 3)$ 最近的点。在这个问题当中，我们要求的就是距离函数 $z=f(x,y)=(x-5)^2+(y-3)^2$ 的极值（同时也是最值），而约束条件则是 $\phi(x,y)=xy-2=0$ 。

对于这个例子，我们完全可以把它化为一元函数极值/最值的问题。令 $y=\frac{2}{x}$ ，则 $z=f(x,y)=z(x)=(x-5)^2+\left(\frac{2}{x}-3\right)^2$ ，然后对 $z (x)$ 求导数为 $0$ 的点即可。

但并非所有的问题都能找到 $y$ 与 $x$ 的函数关系，此时隐函数 $\phi(x,y)=0$ 不能显化，不能直接代得到 $y$ 的表达式。比如像 $e^xy+y\arctan x=0$ 这种奇怪的函数， $y$ 对 $x$ 的表达式根本写不出来。虽然这种 $\phi(x,y)=0$ 不能显化，但我们仍然可以把 $y$ 与 $x$ 的关系设出来： $y = y (x)$ ，假装可以得到 $y$ 关于 $x$ 的表达式。那么 $z = f (x, y) = f (x, y (x))$ 是 $x$ 的一元函数，在 $\frac{\text{d}z}{\text{d}x}=0$ 时可能取得极值。假设 $f$ 对 $x$ 的偏导数为 $f_x$ ，对 $y$ 的偏导数为 $f_y$ 。由求导的链式法则得到 $\frac{\text{d}z}{\text{d}x}=\frac{\text{d}[f(x,y(x))]}{\text{d}x}=f_x+f_y\frac{\text{d}y}{\text{d}x}$ 那么式子里面的 $\frac{\text{d}y}{\text{d}x}$ ，也就是 $y$ 对 $x$ 的导数等于多少呢？虽说是隐函数，导数仍然是可以求出来的。在 $\phi(x,y)=0$ 两端取微分，得到 $\phi_x\text{d}x+\phi_y\text{d}y=0$ ，其中 $\phi_x$ 是 $\phi$ 对 $x$ 的偏导数， $\phi_y$ 是 $\phi$ 对 $y$ 的偏导数。那么 $\phi_y\text{d}y=-\phi_x\text{d}x\\\frac{\text{d}y}{\text{d}x}=-\frac{\phi_x}{\phi_y}$ 这样就求出了 $y$ 对 $x$ 的导数。注意，这里要求 $\phi_y\ne0$ ，否则就没法算了。带入 $\frac{\text{d}z}{\text{d}x}$ 的表达式得 $\frac{\text{d}z}{\text{d}x}=\frac{\text{d}[f(x,y(x))]}{\text{d}x}=f_x+f_y\frac{\text{d}y}{\text{d}x}=f_x-f_y\frac{\phi_x}{\phi_y}$ 在取得极值得时候它等于 $0$ ，也就是 $f_x-f_y\frac{\phi_x}{\phi_y}=0$ 两边同时乘以 $\phi_y$ 得 $\phi_yf_x-f_y\phi_x=0$ 变形得到 $\frac{f_x}{\phi_x}=\frac{f_y}{\phi_y}$ 看起来蛮对称的哈。那我们引入参数 $\lambda=-\frac{f_x}{\phi_x}=-\frac{f_y}{\phi_y}$ ，变形一下有 $\begin{cases}f_x+\lambda\phi_x=0\\f_y+\lambda\phi_y=0\end{cases}$ 这就是 $\frac{\text{d}z}{\text{d}x}=0$ 的条件。
我们梳理一下 $(x, y)$ 是极值点的条件：首先是 $\frac{\text{d}z}{\text{d}x}=0$ ，然后就是 $\phi(x,y)=0$ 。总结一下就是： $\begin{cases}f_x+\lambda\phi_x=0\\f_y+\lambda\phi_y=0\\\phi(x,y)=0\end{cases}$

看到这三个式子，我们伟大的拉格朗日先生构造了一个函数： $L(x,y,\lambda)=f(x,y)+\lambda\phi(x,y)=0$ 我们对它求导数： $\begin{cases}\frac{\partial L}{\partial x}=f_x+\lambda\phi_x\\\frac{\partial L}{\partial y}=f_y+\lambda\phi_y\\\frac{\partial L}{\partial \lambda}=\phi(x,y)\end{cases}$ 那么，这三个导数为 $0$ 不就和刚才我们提到的三个条件一模一样吗？于是我们只需要求 $L$ 梯度为 $\vec0$ ，即 $L$ 对各个变量的偏导数都为 $0$ 的点（称为 $L$ 的驻点）就可以得到 $f (x, y)$ 在约束条件 $\phi(x,y)=0$ 下的极值了！

$L(x,y,\lambda)$ 称为拉格朗日函数， $\lambda$ 称为拉格朗日乘数。

例求 $z=f(x,y)=8x^2-2y$ 在 $x^2+y^2=1$ 条件下的极值。
解：约束条件为 $\phi(x,y)=x^2+y^2-1=0$ 。
令拉格朗日函数 $\begin{aligned}L(x,y,\lambda)&=f(x,y)+\lambda\phi(x,y)\\&=8x^2-2y+\lambda x^2+\lambda y^2-\lambda\\&=(8+\lambda)x^2+\lambda y^2-2y-\lambda\end{aligned}$ 则 $\begin{aligned}\frac{\partial L}{\partial x}&=2(8+\lambda)x\\\frac{\partial L}{\partial y}&=2\lambda y-2\\\frac{\partial L}{\partial \lambda}&=x^2+y^2-1\end{aligned}$ 令这三个导数为 $0$ ，解方程组，得到 $x=0,y=\pm 1,\lambda=\mp 1$ 或 $x=\pm\frac{3\sqrt7}{8},y=-\frac1 8,\lambda=-8$ 。
(1) 当 $(x,y)=(0,\pm 1)$ 时， $f (x, y) = - 2$ ，取极小值；
(2) 当 $(x,y)=(\pm\frac{3\sqrt7}{8},-\frac1 8)$ 时， $f(x,y)=\frac{65} 8$ ，取极大值。∎

事实上，拉格朗日乘数法可以用可视化的方式理解。在这里插入图片描述
对于例子中给出的函数，我们画出 $f(x,y)=8x^2-2y$ 的等值线，例如 $f (x, y) = - 1$ ；我们对图像进行平移，即可得到 $f (x, y)$ 等于不同的值的等值线。约束条件 $x^2+y^2=1$ 限定了 $(x, y)$ 只能在蓝色的圆上。我们看到，从上往下平移， $f (x, y)$ 越来越大。那么，当曲线 $f (x, y) = a$ 平移到与 $x^2+y^2=1$ 恰好有交点时，最小值就找到了，此时 $f (x, y) = - 1$ ，就是图中红线标出来的。继续往下平移，会出现曲线顶点与圆相切的情况，这是另一个极小值，但不是最小值。接着平移，快要没有交点的时候，最大值就找出来了，此时曲线与圆相切并且有两个切点。

事实上，拉格朗日函数 $L$ 的各阶导数为 $0$ 的点真的是极值吗？是极大值还是极小值？还需另行判断，不过一般而言通过问题的实际意义就能推测出来了。

二、推广到多元的情形

现在我们考虑 $n$ 元函数 $f(x_1,x_2,\cdots,x_n)$ 在 $m$ 个约束条件 $\begin{cases}\phi_1(x_1,x_2,\cdots,x_n)=0\\\phi_2(x_1,x_2,\cdots,x_n)=0\\\cdots\\\phi_m(x_1,x_2,\cdots,x_n)=0\end{cases}$ 下的极值。

此时我们取拉格朗日函数 $\begin{aligned}&L(x_1,x_2,\cdots,x_n,\lambda_1,\lambda_2,\cdots,\lambda_m)\\=&f(x_1,x_2,\cdots,x_n)+\lambda_1\phi_1(x_1,x_2,\cdots,x_n)\\&+\lambda_2\phi_2(x_1,x_2,\cdots,x_n)+\cdots+\\&\lambda_m\phi_m(x_n,x_2,\cdots,x_n)\\=&f(x_1,x_2,\cdots,x_n)+\sum\limits_{k=1}^m\lambda_k\phi_k(x_1,x_2,\cdots,x_n)\end{aligned}$ 此时 $L$ 对各个变量偏导数为 $0$ 的点就是我们要考虑的 $f$ 的极值点。