增广拉格朗日函数法（ALM）

最新推荐文章于 2024-06-26 00:44:49 发布

颹蕭蕭

最新推荐文章于 2024-06-26 00:44:49 发布

阅读量4.5w

点赞数 72

分类专栏： # 优化问题 # 机器学习文章标签： ALM 增广拉格朗日函数不等式约束

我们不生产知识，我们只是互联网的搬运工

本文链接：https://blog.csdn.net/itnerd/article/details/86012869

版权

机器学习同时被 2 个专栏收录

136 篇文章 17 订阅

订阅专栏

优化问题

32 篇文章 24 订阅

订阅专栏

在这里插入图片描述

增广拉格朗日函数法（ Augmented Lagrangian method）

一、等式约束

考虑问题：
$\begin{array}{ll} \min_x &f(x)\\ s.t. &c_i(x) = 0, \quad i=1,\cdots,m. \end{array}$
定义增广拉格朗日函数：
$L_t(x,\lambda) = f(x) - \sum_i \lambda_ic_i(x) + \frac{t}{2}\sum_i\big(c_i(x)\big)^2$

增广拉格朗日函数可以理解为在拉格朗日函数的基础上加了一个二次惩罚项，所以该方法是拉格朗日函数法与罚函数法的结合。

求解方法类似于对偶上升法，不过梯度上升的步长改成了固定的参数 $t$ ，算法迭代步骤为：

固定 $\lambda$ , 更新x：
$x^+ = \argmin_x L_t(x;\lambda)$
意味着
$\nabla_x L_t(x^+;\lambda) = \nabla f(x^+) - \sum_i\big( \lambda_i-tc_i(x^+)\big)\nabla c_i(x^+) = 0$
更新 $\lambda$ :
$\lambda_i^+ = \lambda_i-tc_i(x^+)$

二、不等式约束

考虑问题：
$\begin{array}{ll} \min_x &f(x)\\ s.t. & c_i(x) \geq 0, \quad i=1,\cdots,m. \end{array}$
其等价形式为：
$\begin{array}{ll} \min_x &f(x)\\ s.t. &c_i(x) - \nu_i =0, \\ & \nu_i \geq 0,\quad i=1,\cdots,m. \end{array}$
定义带约束的增广拉格朗日函数：
$L_t(x,\lambda) = f(x) - \sum_i \lambda_i \big(c_i(x)-\nu_i(x)\big) + \frac{t}{2}\sum_i\big(c_i(x)-\nu_i(x)\big)^2 \\ s.t. \quad \nu_i \geq 0,\quad i=1,\cdots,m.$
算法迭代步骤为：

固定 $\lambda$ , 更新 $x,\nu$ ：
$\begin{array}{rl} (x^+,\nu^+) &= \arg\min_{x,\nu} \quad L_t(x;\lambda) \\ &= \arg\min_{x,\nu}\quad f(x) + \sum_i \left\{ -\lambda_i \big(c_i(x)-\nu_i(x)\big) + \frac{t}{2}\big(c_i(x)-\nu_i(x)\big)^2 \right\} \tag{1}\\ s.t. &\quad \nu_i \geq 0,\quad i=1,\cdots,m. \end{array}$
更新 $\lambda$ : $\lambda_i^+ = \lambda_i-t(c_i(x^+)-\nu_i^+)$

事实上，算法中的 $\nu$ 可以消去，由(1)式
$\begin{array}{rl} (x^+,\nu^+) &= \arg\min_{x,\nu}\quad f(x) + \sum_i \left\{ -\lambda_i \big(c_i(x)-\nu_i(x)\big) + \frac{t}{2}\big(c_i(x)-\nu_i(x)\big)^2 \right\} \\ &= \arg\min_{x,\nu}\quad f(x) + \frac{t}{2}\sum_i \left\{ -(\frac{\lambda_i}{t})^2 + \big(c_i(x)-\nu_i(x) - \frac{\lambda_i}{t}\big)^2 \right\} \\ &= \arg\min_{x,\nu} \quad f(x) + \frac{t}{2}\sum_i \left\{ \big(c_i(x)-\nu_i(x) - \frac{\lambda_i}{t}\big)^2 \right\} \\ s.t. &\quad \nu_i \geq 0,\quad i=1,\cdots,m. \tag{2} \end{array}$
从(2)式第二项很容易看出，假如先求得 $x^+$ ，必然有
$\nu_i^+ = \max(c_i(x^+) - \frac{\lambda_i}{t},0)$

上式中取 $\max$ 是为了满足 $\nu$ 非负的约束条件。将其代回 (1) 式，得
$x^+ = \arg\min_x \quad f(x) + \sum_i \psi(c_i(x),\lambda_i,t)$

其中
$\psi(c_i(x),\lambda_i,t)=\left\{ \begin{array}{ll} -\lambda_i c_i(x) + \frac{t}{2}c_i(x)^2, & \text{如果} c_i(x) - \lambda_i/t <0, \\\\ -\frac{\lambda_i^2}{2t}, &otherwise. \end{array} \right.$
然后更新 $\lambda$ : $\lambda^+ = \max(\lambda_i - tc_i(x^+),0)$