浅谈拉格朗日乘子法的数学推导

最新推荐文章于 2023-07-23 11:30:48 发布

klcola

最新推荐文章于 2023-07-23 11:30:48 发布

阅读量2.2k

点赞数 2

分类专栏：数学文章标签：算法机器学习

本文链接：https://blog.csdn.net/klcola/article/details/105416048

版权

数学专栏收录该内容

7 篇文章 4 订阅

订阅专栏

注数学系列为本人的学习笔记，水平有限，如有错误希望读者不吝指正。

拉格朗日乘子法（Lagrange Multiplier Method）是求解最优化问题的一个方法，在推导该方法之前，先来看几个基本概念。

梯度（gradient）

函数的梯度是由该函数的偏导数组成的向量，一元函数的梯度就是导数，函数的切线就是梯度的方向，二元函数的梯度是两个偏导数组成的向量，例如二元函数 $z = f (x, y)$ 可微，在点 $P_o$ 处存在偏导数 $f'_x, f'_y$ ，则称向量 $f'_x, f'_y)$ 为函数 $z$ 的梯度，记为 $\nabla z$ 。梯度的几何意义是函数变化率最大的方向。一元函数导数即为函数的变化率，沿切线的方向就是变化率最大的方向。二元函数中，由两个偏导数组成的向量的方向，即为梯度方向。因为二元函数的全微分形式为
$dz = f'_x(x,y)dx + f'_y(x,y)dy$ 则二元函数梯度为
$\nabla z = (f'_x(x,y), f'_y(x,y))$ 观察 $d z$ 的形式，我们发现 $d z$ 可记为 $\nabla z$ 与 $(d x, d y)$ 的内积，即
$\nabla z \cdot (dx,dy) = (f'_x(x,y), f'_y(x,y)) \cdot (dx,dy) = f'_x(x,y)dx + f'_y(x,y)dy$ 微分就是近似计算
$\Delta z = f'_x(x,y)dx + f'_y(x,y)dy = \nabla z \cdot (\Delta x, \Delta y)$
我们知道两个向量内积的几何意义是两向量模长相乘再乘以这两个向量的夹角的余弦，即设 ${\bf a 、b}$ 为两向量，其夹角为 $\theta$ ，则
${\bf a \cdot b} = ||{\bf a}|| \cdot||{\bf b}|| \cdot \cos \theta$ 我们记向量 $\nabla z$ 和向量 $(\Delta x, \Delta y)$ 之间的夹角 $\angle$ 为 $\alpha$ ，则
$\Delta z =\nabla z \cdot (\Delta x, \Delta y) = ||\nabla z|| \cdot ||(\Delta x, \Delta y)|| \cdot \cos \alpha$ 当固定 $\nabla z$ 、 $\Delta x$ 和 $\Delta y$ 后， $\angle \alpha = 0$ 时， $\Delta z$ 最大，因此函数 $z$ 变化率最大的方向与 $(\Delta x, \Delta y)$ 也就是其梯度的方向是一致的。当函数更多元时，可以证明梯度仍然是函数变化率最大的方向。

黑塞矩阵（Hessian Matrix）

是一个多元函数的二阶偏导数构成的矩阵，描述了该函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出，并以其名字命名。该矩阵在判定多元函数极值方面有非常重要的应用。
在工程实际问题的优化设计中，目标函数往往非常复杂，为了使问题简化，往往将目标函数在某点邻域内展开成泰勒多项式来逼近原函数。

二元函数黑塞矩阵

我们知道，若一元函数 $f (x)$ 在包含 $x=x^{(0)}$ 点的某个闭区间 $[a, b]$ 内有 $n$ 阶导数，并且在开区间 $(a, b)$ 上有 $n + 1$ 阶导数，则对闭区间 $[a, b]$ 上任意一点 $x$ ，则 $f (x)$ 在 $x^{(0)}$ 处有泰勒展开式
$\frac{f(x^{(0)})}{0!} + \frac{f'(x^{(0)})}{1!}(x-x^{(0)}) + \frac{f''(x^{(0)})}{2!}(x - x^{(0)}) + \cdots + \frac{f^{(n)}(x^{(0)})}{n!}(x - x^{(0)})^n + R_n(x)$ 其中， $f^{(n)}(x)$ 为 $f (x)$ 的 $n$ 阶导数， $R_n(x)$ 是泰勒展开式的余项，是 $x - x^{(0)})^{n+1}$ 的高阶无穷小。
类似一元函数，若二元函数 $f(x_1,x_2)$ 在点 $(x^{(0)}_1, x^{(0)}_2)$ 的某个邻域内有 $n + 1$ 阶连续偏导数，令 $(x^{(1)}_1, x^{(1)}_2)$ 为该邻域内任意一点，令 $\Delta x_1 = x^{(1)}_1-x^{(0)}_1, \quad \Delta x_2 = x^{(1)}_2-x^{(0)}_2$ 令 $\left.\frac{\partial f}{\partial x_1}\right|_{X^{(0)}} \ 为 \ \left.\frac{\partial f(x_1,x_2)}{\partial x_1}\right|_{(x^{(0)}_1, x^{(0)}_2)} \ 的简写形式$
则 $f(x_1, x_2)$ 在点 $(x^{(1)}_1, x^{(1)}_2)$ 处有泰勒展开式
$\begin{aligned} f(x_1, x_2) & = f(x^{(0)}_1, x^{(0)}_2) \\ & + \frac{1}{1!} \left.\frac{\partial f}{\partial x_1}\right|_{X^{(0)}} \cdot \Delta x_1 + \frac{1}{1!} \left.\frac{\partial f}{\partial x_2}\right|_{X^{(0)}} \cdot \Delta x_2 \\ & + \frac{1}{2!} \left[ \left.\frac{\partial^2 f}{\partial x^2_1}\right|_{X^{(0)}} \cdot \Delta x^2_1 + 2 \left.\frac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} \cdot \Delta x_1 \Delta x_2 + \left.\frac{\partial^2 f}{\partial x^2_2}\right|_{X^{(0)}} \cdot \Delta x^2_2 \right] \\ & + \cdots \\ & + \frac{1}{n!} \left[ \sum^n_{p=0} {n \choose p} \Delta x^p_1 \Delta x^{n-p}_2 \cdot \left.\frac{\partial^n f}{\partial x^p_1 \partial x^{n-p}_2}\right|_{X^{(0)}} \right] \\ & + R_n(x) \end{aligned}$ 其中， $R_n(x)$ 是泰勒展开式的余项，是 $(\Delta x_1 + \Delta x_2)^{n+1}$ 的高阶无穷小。
我们将上述二元函数泰勒展开式写成矩阵相乘的形式，令 $X=(x_1, x_2)$ ，则泰勒展开式的前几项可以写为
$\begin{aligned} f(X) & = f(X^{(0)}) \\ & + \frac{1}{1!} (\left.\frac{\partial f}{\partial x_1}\right|_{X^{(0)}} , \left.\frac{\partial f}{\partial x_2}\right|_{X^{(0)}}) \begin{pmatrix} \Delta x_1 \\[2ex] \Delta x_2 \end{pmatrix} \\ & + \frac{1}{2!} (\Delta x_1, \Delta x_2) \begin{pmatrix} \left.\dfrac{\partial^2 f}{\partial x^2_1}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} \\[4ex] \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x^2_2}\right|_{X^{(0)}} \end{pmatrix} \begin{pmatrix} \Delta x_1 \\[2ex] \Delta x_2 \end{pmatrix} \\ & + \cdots \end{aligned}$ 方阵
$\begin{pmatrix} \left.\dfrac{\partial^2 f}{\partial x^2_1}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} \\[4ex] \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x^2_2}\right|_{X^{(0)}} \end{pmatrix}$
是函数 $f(x_1, x_2)$ 在 $(x^{(0)}_1, x^{(0)}_2)$ 处的二阶偏导数矩阵，也即该函数的黑塞矩阵。

多元函数的黑塞矩阵

前述二元函数泰勒展开式的矩阵形式中，我们令
$\begin{aligned} \Delta X & = \begin{pmatrix} \Delta x_1 \\[2ex] \Delta x_2 \end{pmatrix} \\[3ex] \nabla f(X^{(0)}) & = \begin{pmatrix} \left.\dfrac{\partial f}{\partial x_1}\right|_{X^{(0)}} \\[4ex] \left.\dfrac{\partial f}{\partial x_2}\right|_{X^{(0)}} \end{pmatrix} \\[7ex] \nabla^2f(X^{(0)}) & = \begin{pmatrix} \left.\dfrac{\partial^2 f}{\partial x^2_1}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} \\[4ex] \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x^2_2}\right|_{X^{(0)}} \end{pmatrix} \end{aligned}$ 则泰勒展开式前几项可以写为
$f(X^{(0)}) + \frac{1}{1!} (\nabla f(X^{(0)}))^T \Delta X + \frac{1}{2!} \Delta X^T (\nabla^2f(X^{(0)})) \Delta X + \cdots$ 现在将其推广到多元函数中，令
$\begin{aligned} \Delta X & = \begin{pmatrix} \Delta x_1 \\[2ex] \Delta x_2 \\[2ex] \vdots \\[2ex] \Delta x_n \end{pmatrix} \\[9ex] \nabla f(X^{(0)}) & = \begin{pmatrix} \left.\dfrac{\partial f}{\partial x_1}\right|_{X^{(0)}} \\ \left.\dfrac{\partial f}{\partial x_2}\right|_{X^{(0)}} \\ \vdots \\[1ex] \left.\dfrac{\partial f}{\partial x_n}\right|_{X^{(0)}}\end{pmatrix} \\[12ex] \nabla^2f(X^{(0)}) & = \begin{pmatrix} \left.\dfrac{\partial^2 f}{\partial x^2_1}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} & \cdots & \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_n}\right|_{X^{(0)}} \\[4ex] \left.\dfrac{\partial^2 f}{\partial x_2 \partial x_1}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial^2 x_2}\right|_{X^{(0)}} & \cdots & \left.\dfrac{\partial^2 f}{\partial x_2 \partial x_n}\right|_{X^{(0)}} \\[4ex] \vdots & \vdots & \ddots & \vdots \\[4ex] \left.\dfrac{\partial^2 f}{\partial x_n \partial x_1}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x_n \partial x_2}\right|_{X^{(0)}} & \cdots & \left.\dfrac{\partial^2 f}{\partial^2 x_n}\right|_{X^{(0)}} \end{pmatrix} \end{aligned}$
则多元函数 $f(x_1, x_2, \ldots, x_n)$ 在点 $X^{(0)} = (x^{(0)}_1, x^{(0)}_2, \ldots, x^{(0)}_n)$ 处的泰勒展开式也可以表示为
$f(X^{(0)}) + \frac{1}{1!} (\nabla f(X^{(0)}))^T \Delta X + \frac{1}{2!} \Delta X^T (\nabla^2f(X^{(0)})) \Delta X + \cdots$ 我们发现， $\nabla f(X^{(0)})$ 恰好是该多元函数在点 $X^{(0)}$ 处的梯度，而方阵 $\nabla^2f(X^{(0)})$ 即是该多元函数在点 $X^{(0)}$ 处的黑塞矩阵。

思考为什么黑塞矩阵要用二阶偏导数矩阵？梯度方向的几何意义是函数的变化率最大的方向，梯度的分量则是该函数在各个变量方向上的变化率。二阶偏导数矩阵的几何意义是函数变化率的变化率，也就是梯度的梯度，类似力学中速率的速率，也就是加速度的概念。

黑塞矩阵的应用

利用黑塞矩阵，我们可以判定多元函数的极值。

一元函数极值判断

首先还是来看一元函数的情形，费马（Fermat）定理表明，如果函数 $f (x)$ 的一个极值点为 $x^{(0)}$ ，并且该函数在点 $x^{(0)}$ 处可导，那么该函数在点 $x^{(0)}$ 处的导数为 $0$ ，即 $f'(x^{(0)}) = 0$ 。由此我们知道 $x^{(0)}$ 为极值点的必要条件是函数 $f (x)$ 在该点的一阶导数为 $0$ 。但 $f'(x^{(0)}) = 0$ 并不是 $x^{(0)}$ 为极值点的充分条件，当 $f'(x^{(0)}) = 0$ 时，为确定 $x^{(0)}$ 是否为极值点，当函数在 $x^{(0)}$ 处存在二阶导数时，我们还需要考察 $f (x)$ 的二阶导数，并且有以下判断标准
$\begin{aligned} 当 \ f'(x^{(0)}) \neq 0 \ 时，x^{(0)} 不是极值点 \\ 当 \ f'(x^{(0)}) = 0 \ 且 \ f''(x) < 0 \ 时，x^{(0)} 为极大值点 \\ 当 \ f'(x^{(0)}) = 0 \ 且 \ f''(x) > 0 \ 时，x^{(0)} 为极小值点 \\ 当 \ f'(x^{(0)}) = 0 \ 且 \ f''(x) = 0 \ 时，x^{(0)} 为鞍点 \ \ \ \ \ \ \ \ \\ \end{aligned}$

多元函数极值判断

类似一元函数，如果多元函数 $f(x_1, x_2, \ldots, x_n)$ 二阶连续可导，并在点 $X^{(0)} = (x^{(0)}_1, x^{(0)}_2, \ldots, x^{(0)}_n)$ 处梯度 $\nabla f(X^{(0)})=0$ ，我们计算该点处的二阶偏导数矩阵，即黑塞矩阵 $\nabla^2 f(X^{(0)})$ ，并有如下判断标准
$\begin{aligned} 当 \ \nabla f(x^{(0)}) \neq 0 \ 时，X^{(0)} 不是极值点 \\ 当 \ \nabla f(x^{(0)}) = 0 \ 且 \ \nabla^2 f(X^{(0)}) \ 为正定矩阵时，X^{(0)} 为极小值点 \\ 当 \ \nabla f(x^{(0)}) = 0 \ 且 \ \nabla^2 f(X^{(0)}) \ 为负定矩阵时，X^{(0)} 为极大值点 \\ 当 \ \nabla f(x^{(0)}) = 0 \ 且 \ \nabla^2 f(X^{(0)}) \ 为不定矩阵时，X^{(0)} 不是极值点 \end{aligned}$
那么如何判断黑塞矩阵 $\nabla^2 f(X^{(0)})$ 是正定还是负定呢？这就需要计算 $\nabla^2 f(X^{(0)})$ 的特征值。 $\nabla^2 f(X^{(0)})$ 为正定矩阵的充要条件是其所有特征值均大于 $0$ ， $\nabla^2 f(X^{(0)})$ 为负定矩阵的充要条件是其所有特征值均小于 $0$ 。

当 $||\Delta X||$ 非常小时，我们可以利多元函数在点 $X^{(0)} = (x^{(0)}_1, x^{(0)}_2, \ldots, x^{(0)}_n)$ 处的泰勒展开式的第一、二项来近似函数，即
$\approx f(X^{(0)}) + (\nabla f(X^{(0)}))^T \Delta X$ 当寻找函数极小值时，需要
$f(X^{(0)}) \approx (\nabla f(X^{(0)}))^T \Delta X < 0$ 这说明，在寻找极小值时，函数自变量移动的方向，也即向量 $\Delta X$ 的方向与梯度 $\nabla f(X^{(0)})$ 的夹角大于 $90^\circ$ 。

拉格朗日乘子法（Lagrange Multiplier Method）

拉格朗日乘子法是求解最优化问题的一个方法。需要求解的最优化问题为：
给定定义在数域 $\Omega \subset R^n$ 上的函数 $g_1, g_2, \ldots, g_m$ 和 $h_1, h_2, \ldots, h_l$ ，求如下问题的最优解：
$\min_{x \in \Omega} f(x) \quad subject \ to \quad g_i(x) \leq 0, \ \forall i \quad and \quad h_j(x) = 0, \ \forall j$

可以看出，我们需要在多元函数 $f$ 的变量受另外一个或多个函数限制的情况下寻找该函数的极值。

拉格朗日乘子法将一个有 $N$ 个变量和 $K$ 个约束的求解极值问题转换为一个有 $N + K$ 个变量的方程组的极值问题，该方程组没有任何变量约束。

定理 1 令 $\subset {\Bbb R}^n$ 为一开集，并令 $\rightarrow {\Bbb R}$ ， $\rightarrow {\Bbb R}$ 为一阶可导函数，令 ${\bf x}_o \in U$ ， $c=g({\bf x}_0)$ ，令 $S$ 为 $g$ 在 $c$ 处的水平集（即等高线），假定 $\nabla g({\bf x}_0) \neq 0$ ，如果函数 $f|_S$ 在 $x_0$ 处有局部极值，则有 $\lambda \in {\Bbb R}$ 满足
$\nabla f({\bf x}_0) = \lambda g({\bf x}_0)$

定义 1 令 $\subset {\Bbb R}^n$ 为一开集，并令 $\rightarrow {\Bbb R}$ 为一阶可导函数，令 ${\bf x_0} \in U$ ， $c=g({\bf x_0})$ ，并且 $S$ 为 $g$ 在 $c$ 处的水平集（ $\ set$ ，即等高线），如果 $\nabla g({\bf x_0}) \neq 0$ ，则我们定义 $S$ 在 ${\bf x_0}$ 处的切空间（tangent space）为所有满足 $\nabla g({\bf x_0})({\bf x - x_0}) = 0$ 的向量 ${\bf x} \in {\Bbb R}^n$ 的集合。
理论上，水平集 $S$ 的切空间是所有与梯度 $\nabla g({\bf x_0})$ 正交的向量，但如果我们希望该空间真的与 $S$ “相切”，我们需要平移这些向量，使其从点 ${\bf x_0}$ 处起始，也就是要给这些向量加上 ${\bf x_0}$ 。

引理 1 令 ${\bf u, v} \in {\Bbb R}^n$ 且 ${\bf u} \neq 0$ ，令 $T$ 表示所有满足 ${\bf x} \in {\Bbb R}^n$ 且 ${\bf x \cdot u} = 0$ 的向量 ${\bf x}$ 的集合，如果对于所有的 ${\bf x} \in T$ 都有 ${\bf x \cdot v} = 0$ ，则 ${\bf v} = \lambda {\bf u}$ ， $\lambda$ 为一标量。
证明因为 ${\bf u} \neq 0$ ，我们可以将 ${\bf v}$ 分解为 ${\bf v_1}$ 和 ${\bf v_2}$
${\bf v} = {\bf v_1} + {\bf v_2}$ 并要求 ${\bf v_1} = \alpha {\bf u}$ 且 ${\bf v_2 \cdot u} = 0$ ，即 ${\bf v_1}$ 为 ${\bf v}$ 在 ${\bf u}$ 上的投影，则 $\alpha = {\bf v \cdot u} / ||{\bf u}||^2$ 。这是因为
$\begin{aligned} \because \quad & {\bf v \cdot u} = ||{\bf v}|| ||{\bf u}|| \cos \theta & \\ \therefore \quad & ||{\bf v_1}|| = ||{\bf v}|| \cos \theta = \frac{{\bf v \cdot u} }{||{\bf u}||} \\[4ex] \because \quad & \alpha = \frac{||{\bf v_1}||}{||{\bf u}||} \\[2ex] \therefore \quad & \alpha = \frac{{\bf v \cdot u}}{||{\bf u}||^2} \end{aligned}$
接下来，根据我们对 ${\bf v}$ 的假设（对于所有的 ${\bf x} \in T$ 都有 ${\bf x \cdot v} = 0$ ），则

$\begin{aligned} 0 & = {\bf v_2 \cdot v} \\ & = {\bf v_2 \cdot (v_1 + v_2)} \\ & = {\bf v_2 \cdot v_1} + ||{\bf v_2}||^2 \\ & = \alpha {\bf v_2 \cdot u} + ||{\bf v_2}||^2 \\ & = 0 + ||{\bf v_2}||^2 \end{aligned}$ 因此 ${\bf v_2} = 0$ ， ${\bf v} = {\bf v_1} = \alpha {\bf u}$ 得证。

定理 1 证明
令 $T$ 为 $S$ 在 ${\bf x_0}$ 处的切空间，我们需要证明对于任一 ${\bf x} \in T$ ，都有 $\nabla f({\bf x_0}) \cdot ({\bf x - x_0}) = 0$ ，因为 $\nabla g({\bf x_0}) \neq 0$ ，从引理 1 可得知 $\nabla f({\bf x_0}) = \lambda \nabla g({\bf x_0})$ ， $\lambda$ 为一标量。现在假设有向量 ${\bf v}$ ，使得 $\nabla g({\bf x_0})\cdot{\bf v} = 0$ ，并有一阶可导函数 $\rightarrow {\Bbb R}^n$ ，使得
$\begin{aligned} (1) \quad & c(t) \in S \quad \forall t \in [-a, a] \\ (2) \quad & c(0) = {\bf x_0} \\ (3) \quad & c'(0) = {\bf v} \end{aligned}$ 也就是说，我们沿着 $S$ 定义一个一阶可导的函数（原文为 path，应该也是某种函数），该函数（路径）通过 $S$ 所有的点并且在 ${\bf x_0}$ 处导数为 ${\bf v}$ （可以想象成一个点在沿着 $S$ 运动，通过 ${\bf x_0}$ 处时的速率为 ${\bf v}$ ）
现在我们令 ${\bf x} \in T$ ，因为 ${\bf x - x_0}$ 与 $\nabla g({\bf x_0})$ 正交，所以我们可以选择上述的函数（路径） $c$ ，令 $h (t) = f (c (t))$ ，因为 $f$ 和 $c$ 都是一阶可导的，根据微分的链式法则， $h$ 也可微，又因 $\in S, \forall t$ 且 $f|_S$ 在 ${\bf x_0}$ 处有最大或最小值，函数 $h (t)$ 在 $t = 0$ 处有最大或最小值，这样的话
$\begin{aligned} 0 & = \left.\frac{d}{dt}h(t)\right|_{t=0} \\[3ex] & = \nabla f(c(0)) \cdot c'(0) \\[2ex] & = \nabla f({\bf x_0}) \cdot ({\bf x - x_0}) \end{aligned}$

定理 2 隐函数定理
先来看一个定理 隐函数定理，设 $E$ 是 ${\Bbb R}^n$ 的开子集合（ $n > 1$ ），而 $\rightarrow {\Bbb R}$ 是连续可微函数，并且设 ${\bf y} = (y_1, y_2, \ldots, y_n)$ 是 $E$ 中的一个点，使 $f({\bf y}) = 0, \left.\frac{\partial f}{\partial x_n}\right|_{\bf y} \neq 0$ ，那么存在 ${\Bbb R}^{n-1}$ 的开子集合 $U$ ，它含有点 $(y_1, y_2, \ldots, y_{n-1})$ ，而且存在 $E$ 的一个含有 ${\bf y}$ 的开子集 $V$ ，及函数 $\rightarrow {\Bbb R}$ ，使得 $g(y_1, y_2, \ldots, y_{n-1}) = y_n$ ，并且
$\{(x_1, x_2, \ldots, x_n) \in V:f(x_1, x_2, \ldots x_n) = 0\} \\ = \{(x_1, x_2, \ldots, x_{n - 1}, g(x_1, x_2, \ldots, x_{n - 1}) :(x_1, x_2, \ldots, x_{n-1} \in U)\}$ 也就是说，集合 $\{x \in V: f(x) = 0 \}$ 是 $U$ 上的函数 $g$ 的图像，还有， $g$ 在 $(y_1, y_2, \ldots, y_{n - 1})$ 处可微，并且
$\left.\frac{\partial g}{\partial x_j}\right|_{(y_1, y_2, \ldots, y_{n-1})} = - \left.\frac{\partial f}{\partial x_j}\right|_{\bf y} / \left.\frac{\partial f}{\partial x_n}\right|_{\bf y} , \quad 1 \leq j \leq n - 1$

隐函数定理的另一种表述 令 ${\Bbb R}^{n+1} \rightarrow {\Bbb R}$ 为一阶可导函数，令 $({\bf x}, z)$ 表示 ${\Bbb R}^{n+1}$ 中的点，其中 ${\bf x} \in {\Bbb R}^n$ ， $\in {\Bbb R}$ ，假设有 $({\bf x_0}, z_0) \in {\Bbb R}^{n+1}$ 满足
$F({\bf x_0}, z_0) = 0 \quad and \quad \frac{\partial F}{\partial z} ({\bf x_0}, z_0) \neq 0$ 则有球体 $\subset {\Bbb R}^n$ 包含点 ${\bf x_0}$ 、开区间 $\subset {\Bbb R}$ 包含 $z_0$ 和单值函数 $\rightarrow {\Bbb R}$ ，当且仅当 $z=g({\bf x})$ 时有 $F({\bf x}, z) = 0, {\bf x} \in U, z \in V$ 。此外，还有 $g$ 有一阶偏微分
$\frac{\partial g}{\partial x_i} = - \frac{\partial F/\partial x_i}{\partial F/\partial z}$ 其中 $\ldots n$ 。
$F({\bf x}, z) = 0$ 隐含着 $z$ 是 ${\bf x}$ 的函数的意思，隐函数定理 则告诉我们在符合什么样条件的时候， $F$ 可以表示为 $z=g({\bf x})$ ，并且我们可以知道，当 $F$ 一阶可导时 $g$ 也一阶可导。

引理 2 令 $\subset {\Bbb R}^n$ 为一开集，并令 $\rightarrow {\Bbb R}$ 为一阶可导函数，令 ${\bf x_0} \in U, \ c = g({\bf x_0})$ 且 $S$ 为 $g$ 在取值为 $c$ 时的水平集。若 $\nabla g({\bf x_0}) \neq 0$ ，当给定一向量 ${\bf v}$ 满足 $\nabla g({\bf x_0}) \cdot {\bf v} = 0$ 时，存在一阶可导函数 ${\bf c}:[-a, a] \rightarrow {\Bbb R}^n$ 使得
$\begin{aligned} (1.) \quad & {\bf c}(t) \in S \quad \forall t \in [-a, a] \\ (2.) \quad & {\bf c}(0) = {\bf x_0} \\ (3.) \quad & {\bf c}'(0) = {\bf v}\end{aligned}$
证明因为 $\nabla g({\bf x_0}) \neq 0$ ，从而有 $x_i$ 使得 $\partial g / \partial x_i \neq 0$ ，为方便起见，我们设 $\partial g / \partial x_n(\bf x_0) \neq 0$ ，将 ${\bf x_0}$ 记为 ${\bf x_0} = (y_1, y_2, \ldots, y_n)$ ，根据隐函数定理（令 $\quad and \quad z = x_n$ ），有球体 $\subset {\Bbb R}^{n - 1}$ 包含点 $(y_1, y_2, \ldots, y_{n - 1})$ ，有开集 $\subset {\Bbb R}$ 包含 $y_n$ ，并有定义在 $U$ 上的一阶可导函数 $h(y_1, y_2, \ldots, y_{n - 1})$ 满足
$g(x_1, x_2, \ldots, x_{n-1}, x_{n}) = c \quad 当且仅当 \quad x_n = h(x_1, x_2, \ldots, x_{n - 1}) \tag{1}$ 这就是说，在水平集 $S$ 上的点 ${\bf x_0}$ 附近，我们可以利用 $x_1, x_2, \ldots, x_{n-1}$ 来表示 $x_n$ 。这说明 $S$ 可以看作某些函数在局部的图。
令 ${\bf v} = (v_1, v_2, \ldots, v_n)$ 与 $\nabla g({\bf x_0})$ 正交，并令
${\bf c}_1(t) = (y_1 + t v_1,y_2 + t v_2, \ldots, y_{n-1} + t v_{n-1})$ 及
${\bf c}(t) = ({\bf c}_1(t), h({\bf c}_1(t)))$ 对于非常小的 $t$ ， ${\bf c}_1(t)$ 会落在 $U$ 内，根据等式 $(1)$ ，我们有
$g({\bf c}(t)) = g(({\bf c}_1(t), h({\bf c}_1(t))) = c$ 这表明当 $t$ 很小时， ${\bf c}(t)$ 整个落在水平集 $S$ 上，这证明了引理 2 的第 $(1 .)$ 部分。
对于第 $(2 .)$ 部分，我们有
$\begin{aligned} {\bf c}(0) & = ({\bf c}_1(0), h({\bf c}_1(0))) \\ & = (y_1 + 0v_1,y_2 + 0v_2, \ldots, y_{n-1} + 0v_{n-1}, h(y_1 + 0v_1,y_2 + 0v_2, \ldots, y_{n-1} + 0v_{n-1})) \\ & = (y_1,y_2, \ldots, y_{n-1}, h(y_1,y_2, \ldots, y_{n-1}) ) \end{aligned}$ 因为 ${\bf c}(t) \in S \quad \forall t \in [-a, a]$ ，所以 $g({\bf c(0)}) = c$ ，又根据等式 $(1)$ ，当 $g(x_1, x_2, \ldots, x_{n-1}, x_{n})$ 时，当且仅当 $x_n = h(x_1, x_2, \ldots, x_{n - 1})$ ，因此 $y_n = h(y_1,y_2, \ldots, y_{n-1})$ ，所以第 $(2 .)$ 部分 ${\bf c}(0) = {\bf x_0}$ 得证。
根据微分链式法制，我们有
$\begin{aligned} \left.\frac{d }{d t} h({\bf c_1}(t))\right|_{t=0} & = \nabla h({\bf c_1}(0)) {\bf c_1}'(0) \\[2ex] & = \nabla h(y_1,y_2, \ldots, y_{n-1}) \cdot (v_1, v_2, \ldots, v_{n-1}) \\[2ex] & = \frac{\partial h}{\partial x_1} v_1 + \frac{\partial h}{\partial x_2} v_2 + \cdots + \frac{\partial h}{\partial x_{n - 1}} v_{n - 1} \end{aligned}$ 根据 隐函数定理 ，
$\frac{\partial h}{\partial x_i} = - \frac{\partial g / \partial x_i}{\partial g / \partial x_n}$ 所以
$\frac{\partial h}{\partial x_1} v_1 + \frac{\partial h}{\partial x_2} v_2 + \cdots + \frac{\partial h}{\partial x_{n - 1}} v_{n - 1} = - \frac{1}{\partial g / \partial x_n} (\frac{\partial g}{\partial x_1} v_1 + \frac{\partial g}{\partial x_2} v_2 + \cdots + \frac{\partial g}{\partial x_{n - 1}} v_{n - 1} )$ 而因为 ${\bf v}$ 正交于 $\nabla g({\bf x_0})$ ，所以 $\frac{\partial g}{\partial x_1} v_1 + \frac{\partial g}{\partial x_2} v_2 + \cdots + \frac{\partial g}{\partial x_{n - 1}} v_{n - 1} = \nabla g({\bf x_0}) \cdot {\bf v} - \frac{\partial g}{\partial x_n} v_n = - \frac{\partial g}{\partial x_n} v_n$ 所以 $\left.\frac{d }{d t} h({\bf c_1}(t))\right|_{t=0} = - \frac{1}{\partial g / \partial x_n} (- \frac{\partial g}{\partial x_n} v_n) = v_n$ 所以 ${\bf c}'(t) = ({\bf c}_1'(t), h'({\bf c}_1(t))) = (v_1, v_2, \ldots, v_{n-1}, v_n) = {\bf v}$ 于是第 $(3 .)$ 部分得证。

拉格朗日函数
定义拉格朗日函数为 ${\frak L}({\bf x}, \lambda) = f({\bf x}) + \lambda (g({\bf x}) - c)$ 将上式分别对 ${\bf x}$ 和 $\lambda$ 求导置零，就分别得到 $\nabla f({\bf x}_0) = \lambda g({\bf x}_0)$ 式和等式约束 $g({\bf x})=c$ ，这样就将原约束优化问题转化为对 ${\frak L}({\bf x}, \lambda)$ 的无约束优化问题。

参考资料

https://zhuanlan.zhihu.com/p/29525538
https://baike.baidu.com/item/拉格朗日乘数法
https://www.zhihu.com/question/38586401
https://www.maixj.net/misc/tidu-17934
https://baike.baidu.com/item/黑塞矩阵
https://baike.baidu.com/item/泰勒公式
https://math.dartmouth.edu/archive/m14f04/public_html/math_14_lagrange.pdf
https://www.cnblogs.com/massquantity/p/10807311.html

klcola

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
浅谈拉格朗日乘子法的数学推导

注数学系列为本人的学习笔记，水平有限，如有错误希望读者不吝指正。拉格朗日乘子法（Lagrange Multiplier Method）是求解最优化问题的一个方法，在推导该方法之前，先来看几个基本概念。梯度（gradient）函数的梯度是由该函数的偏导数组成的向量，一元函数的梯度就是导数，函数的切线就是梯度的方向，二元函数的梯度是两个偏导数组成的向量，例如二元函数 z=f(x,y)z=f(x...
复制链接

扫一扫

专栏目录