拉格朗日函数与广义拉格朗日函数

LilyZJ

已于 2024-11-15 17:33:47 修改

阅读量2.2w

点赞数 24

分类专栏： # 最优化 # 机器学习文章标签：算法

于 2019-03-24 22:46:22 首次发布

本文链接：https://blog.csdn.net/LilyZJ/article/details/88778940

版权

机器学习同时被 2 个专栏收录

9 篇文章

订阅专栏

最优化

1 篇文章

订阅专栏

拉格朗日函数用来求解等式约束的最优化问题；广义拉格朗日函数用来求解不等式约束的最优化问题。

无约束优化问题

关于优化问题包括无约束优化问题，等式约束优化问题，不等式约束优化问题。这里简略地介绍一下无约束优化问题。（以后再来填坑。）
考虑无约束优化问题：
$\min \limits_{x} f(x)$

根据Fermat定理，直接找到使得 $\nabla_x f(x)=0$ 的点即可。若无解析解，可以使用梯度下降(负梯度方向是函数下降最快的方向 5)或牛顿方法等使 $x$ 沿负梯度方向逐步逼近极小值点。2
费马引理证明了函数的每一个极值都是驻点（函数的导数在该点为零）。4

等式约束优化

目标函数加上等式约束条件：
$\begin{aligned} &\min \limits_x f(x) \\ &s.t. \quad h_i(x)=0, \quad i=1,2,...,m \end{aligned}$
由于加上了等式约束条件，此时不一定能找到令 $\nabla_x f(x)=0$ 的可行解，只需要在可行域内找到使得 $f (x)$ 取最小值的点。常用的方法为拉格朗日乘子法，利用拉格朗日函数 $L(x,\alpha)$ ：
$L(x,\alpha)=f(x)+\sum_{i=1}^m \alpha_i h_i(x)$
其中 $\alpha_i$ 为拉格朗日乘子。然后分别对 $x$ 和 $\alpha=(\alpha_1,...,\alpha_m)^T$ 求导并令导数为0：

$\left\{ \begin{aligned} \nabla_x L(x,\alpha) & = 0 \\ \nabla_\alpha L(x,\alpha) & = 0 \end{aligned} \right.$
通过求解上述式子，获得极值点。

为什么拉格朗日乘子法能够得到最优值？

在这里插入图片描述
如图所示，满足条件的极值点应该是在目标函数的等高线与约束函数曲线相切的点，即等高线与约束曲线在该点的法向量必须共线，因此最优值必须满足：
$\nabla_x f(x)=a × \nabla_x g(x)$
这就是上述的 $\nabla_x L(x,\alpha)=0$ 。再加上约束条件 $h_i(x)=0$ ，即 $\nabla_\alpha L(x,\alpha)=0$ 。求解二式，可得到最优解。

不等式约束优化

给定不等式约束问题：
$\begin{aligned} &\min \limits_x f(x) \\ &s.t. \quad h_i(x)=0, \ i=1,2,...,m \\ & \qquad \ g_j(x) \leq 0, \ j=1,2,...,n \end{aligned}$

定义广义拉格朗日函数：
$L(x,\alpha,\beta)=f(x)+\sum_{i=1}^m \alpha_i h_i(x)+\sum_{j=1}^n \beta_i g_i(x)$

加上不等式约束后可行解 $x$ 需满足KKT条件：
$\begin{aligned} \nabla_x L(x,\alpha,\beta) &= 0 \\ \beta_j g_j(x) &= 0, \ j=1,2,...,n \\ h_i(x) &= 0, \ i=1,2,...,m \\ g_j(x) &\leq 0, \ j=1,2,...,n \\ \beta_j &\geq 0, \ j=1,2,...,n \end{aligned}$

满足KKT条件后极小化广义拉格朗日函数即可得到在不等式约束条件下的可行解。

对偶问题

关于广义拉格朗日函数有一个重要的结论，即：
$\max \limits_{\alpha,\beta; \beta_i \geq 0} L(x,\alpha, \beta) = \left\{ \begin{aligned} &f(x), \ x满足原始问题约束 \\ &+\infty, \ 其他 \end{aligned} \right.$

这很容易证明。当 $h_i(x)=0$ 且 $g_j(x) \leq 0$ 时，只需令 $\beta_j=0$ ，可得 $\max \limits_{\alpha,\beta; \beta_i \geq 0} L(x,\alpha,\beta)=f(x)$ 。这样原始优化问题可转化无约束优化问题：
$\min \limits_x f(x)=\min \limits_x \max \limits_{\alpha,\beta; \beta_i \geq 0} L(x,\alpha,\beta)$