【优化方法学习笔记】第三章：约束最优化方法

-YueLin-

已于 2023-04-14 13:37:23 修改

阅读量2k

点赞数 3

分类专栏：优化方法学习笔记文章标签：算法

于 2023-03-26 14:31:44 首次发布

本文链接：https://blog.csdn.net/qq_56131580/article/details/129704563

版权

优化方法学习笔记专栏收录该内容

5 篇文章 7 订阅

订阅专栏

本章目录

1. 约束最优化问题
2. KKT条件
3. 二次规划
4. 惩罚函数法与障碍函数法
5. 增广拉格朗日函数法

1. 约束最优化问题

1.1 约束最优化问题的一般形式

约束最优化问题的一般形式为 $\begin{matrix} \min & f(\boldsymbol{x}) \\ \rm {s.t.} & h_i(\boldsymbol{x}) = 0 & i = 1, 2, \cdots, l \\ & h_j(\boldsymbol{x}) \le 0 & j = l+1, l+2, \cdots, m \end{matrix}$ 称 $f(\boldsymbol{x})$ 为目标函数, $h_i(\boldsymbol{x}) = 0$ 为等式约束, $h_j(\boldsymbol{x}) \le 0$ 为不等式约束。
称集合 $\varOmega = \left \lbrace \boldsymbol{x} | h_i(\boldsymbol{x}) = 0, h_j(\boldsymbol{x}) \le 0, i = 1, 2, \cdots, l, j = l+1, l+2, \cdots, m \right \rbrace$ 为可行域。

1.2 可行方向与可行下降方向

设 $\boldsymbol{d}$ 为非零向量, $\boldsymbol{x} \in \varOmega$ , 若 $\exists k > 0$ , 使得 $\forall \alpha \in (0, k)$ , 都有 $\boldsymbol{x} + \alpha \boldsymbol{d} \in \varOmega$ , 则称向量 $\boldsymbol{d}$ 为点 $\boldsymbol{x}$ 处的可行方向, 若还满足 $f(\boldsymbol{x} + \alpha \boldsymbol{d}) < f(\boldsymbol{x})$ , 则称 $\boldsymbol{d}$ 为点 $\boldsymbol{x}$ 处的可行下降方向（或称改进的可行方向）。

1.3 起作用指标集

对于点 $\boldsymbol{x} \in \varOmega$ , 称集合 $A(\boldsymbol{x}) = \left \lbrace i | h_i(\boldsymbol{x}) = 0 \right \rbrace$ 为点 $\boldsymbol{x}$ 的起作用指标集, 直观来讲, 起作用指标集就是所有等式约束的下标和所有不等式约束中取等号的下标构成的集合。

2. KKT条件

设一般形式的约束最优化问题在点 $\boldsymbol{x}$ 处满足：向量组 $\nabla h_i(\boldsymbol{x})$ , $\in A(\boldsymbol{x})$ 线性无关, 问题在点 $\boldsymbol{x}$ 处的拉格朗日函数为 $L(\boldsymbol{x}, \boldsymbol{\lambda}) = f(\boldsymbol{x}) + \sum_{i=1}^{m} \lambda_i h_i(\boldsymbol{x})$ 则问题在点 $\boldsymbol{x}$ 处的KKT条件为 $\begin{cases} \nabla_{\boldsymbol{x}} L(\boldsymbol{x}, \boldsymbol{\lambda}) = \bold0 \\ h_i(\boldsymbol{x}) = 0, i = 1, 2, \cdots, l \\ h_j(\boldsymbol{x}) \le 0, j = l + 1, l + 2, \cdots, m \\ \lambda_j h_j(\boldsymbol{x}) = 0, j = l + 1, l + 2, \cdots, m \\ \lambda_j \ge 0, j = l+1, l+2, \cdots, m \end{cases}$ 若点 $\boldsymbol{x}$ 满足KKT条件, 则称 $\boldsymbol{x}$ 为KKT点, 相应的 $(\boldsymbol{x}, \boldsymbol{\lambda})$ 称为KKT对。

【例1】求下列问题的所有KKT点 $\begin{matrix} \min & x_1x_2 \\ \rm{s.t.} & x_1^2 + x_2^2 = 1 \end{matrix}$ 【解】构造拉格朗日函数 $L(x_1, x_2, \lambda) = x_1x_2 + \lambda x_1^2 + \lambda x_2^2 - \lambda$ KKT条件为 $\begin{cases} x_2 + \lambda x_1 = 0 \\ x_1 + \lambda x_2 = 0 \\ x_1^2 + x_2^2 = 1 \end{cases}$ 解得 $x_1 = x_2 = \pm \dfrac{\sqrt2}{2}, \lambda = -\dfrac{1}{2}$ 或 $x_1 = -x_2 = \pm \dfrac{\sqrt2}{2}, \lambda = \dfrac{1}{2}$ 所以KKT点为 $\left( \dfrac{\sqrt2}{2}, \dfrac{\sqrt2}{2} \right)^{\rm T}$ , $\left( -\dfrac{\sqrt2}{2}, \dfrac{\sqrt2}{2} \right)^{\rm T}$ , $\left( \dfrac{\sqrt2}{2}, -\dfrac{\sqrt2}{2} \right)^{\rm T}$ , $\left( -\dfrac{\sqrt2}{2}, -\dfrac{\sqrt2}{2} \right)^{\rm T}$ 。

【例2】判断点 $\boldsymbol{x}_0 = (1, 3)^{\rm T}$ 是否为下列问题的KKT点 $\begin{matrix} \min & 4x_1 - 3x_2 \\ \rm{s.t.} & x_1 + x_2 \le 4 \\ & x_2 + 7 \ge 0 \\ & (x_1 - 3)^2 \le 1 + x_2 \end{matrix}$ 【解】点 $\boldsymbol{x}_0$ 处的起作用指标集为 $A(\boldsymbol{x}_0) = \lbrace 1, 3 \rbrace$ , 所以 $\lambda_2 = 0$ , 构造拉格朗日函数 $L(x_1, x_2, \lambda_1, \lambda_3) = 4x_1 - 3x_2 + \lambda_1(x_1 + x_2 - 4) + \lambda_3\left[(x_1-3)^2 - x_2 - 1\right]$ KKT条件可化为 $\begin{cases} 4 + \lambda_1 + 2\lambda_3x_1- 6\lambda_3 = 0 \\ -3 + \lambda_1 - \lambda_3 = 0 \\ \lambda_1 \ge 0, \lambda_3 \ge 0 \end{cases}$ 将 $x_1 = 1$ 和 $x_2 = 3$ 代入上面的方程, 得到 $\begin{cases} \lambda_1 - 4\lambda_3 = -4 \\ \lambda_1 - \lambda_3 = 3 \\ \lambda_1 \ge 0, \lambda_3 \ge 0 \end{cases}$ 上面的方程有解： $\lambda_1 = \dfrac{16}{3} \ge 0$ , $\lambda_3 = \dfrac{7}{3} \ge 0$ , 所以 $\boldsymbol{x}_0$ 是KKT点。

3. 二次规划

3.1 二次规划的一般形式

称目标函数为二次函数, 约束为线性约束的约束最优化问题为二次规划, 二次规划的一般形式为 $\begin{matrix} \min & \dfrac{1}{2}\boldsymbol{x}^{\rm T}\boldsymbol{G}\boldsymbol{x} + \boldsymbol{c}^{\rm T} \boldsymbol{x}\\ \rm {s.t.} & \boldsymbol{a}_i^{\rm T} \boldsymbol{x} = b_i & i = 1, 2, \cdots, l \\ & \boldsymbol{a}_j^{\rm T} \boldsymbol{x} \le b_j & j = l+1, l+2, \cdots, m \end{matrix}$

3.2 等式约束二次规划

若二次规划问题不含不等式约束, 则问题退化为 $\begin{matrix} \min & \dfrac{1}{2}\boldsymbol{x}^{\rm T}\boldsymbol{G}\boldsymbol{x} + \boldsymbol{c}^{\rm T} \boldsymbol{x}\\ \rm {s.t.} & \boldsymbol{A} \boldsymbol{x} = \boldsymbol b \end{matrix}$ 若矩阵 $\boldsymbol{G}$ 半正定, 且 $\boldsymbol{A}$ 的所有行线性无关, 则问题的KKT点与问题的最优解等价。只需求解线性方程组 $\begin{bmatrix} \boldsymbol{G} & \boldsymbol{A}^{\rm T} \\ \boldsymbol{A} & \boldsymbol{O} \end{bmatrix} \begin{bmatrix} \boldsymbol{x} \\ \boldsymbol{\lambda} \end{bmatrix} = \begin{bmatrix} \boldsymbol{-c} \\ \boldsymbol{b} \end{bmatrix}$ 即可得到问题的最优解。

【例3】求解二次规划问题 $\begin{matrix} \min & x_1^2 + x_2^2 + x_3^2 - x_1x_2 - x_2x_3 + 2x_1 - x_2\\ \rm {s.t.} & 3x_1 - x_2 - x_3 = 0 \\ & 2x_1 - x_2 - x_3 = 0 \end{matrix}$ 【解】把问题化为矩阵形式 $\begin{matrix} \min & \dfrac{1}{2} [x_1, x_2, x_3] \begin{bmatrix} 2 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 2 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} + [2, -1, 0] \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} \\ \\ \rm {s.t.} & \begin{bmatrix} 3 & -1 & -1 \\ 2 & -1 & -1 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \end{matrix}$ 其中矩阵 $\begin{bmatrix} 2 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 2 \end{bmatrix}$ 正定, 解线性方程组 $\begin{bmatrix} 2 & -1 & 0 & 3 & 2 \\ -1 & 2 & -1 & -1 & -1 \\ 0 & -1 & 2 & -1 & -1 \\ 3 & -1 & -1 & 0 & 0 \\ 2 & -1 & -1 & 0 & 0 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ \lambda_1 \\ \lambda_2 \end{bmatrix} = \begin{bmatrix} -2 \\ 1 \\ 0 \\ 0 \\0 \end{bmatrix}$ 得 $[x_1, x_2, x_3, \lambda_1, \lambda_2] = \left[ 0, \dfrac{1}{6}, \dfrac{1}{6}, -\dfrac{5}{6}, \dfrac{1}{3} \right]$ , 所以最优解为 $[x_1, x_2, x_3] = \left[ 0, \dfrac{1}{6}, \dfrac{1}{6} \right]$ , 最优值为 $-\dfrac{5}{36}$ 。

3.3 起作用指标集方法

对于一般形式的二次规划问题, 若 $\boldsymbol{G}$ 为正定矩阵, 则以下算法可以得到问题的最优解：

给出问题的初始可行点 $\boldsymbol{x}$
初始化下标集合 $\gets A(\boldsymbol{x})$
$\bold{while} \; \rm{True} \; \bold{do}$
$\qquad$ 求解下面仅含等式约束的二次规划问题得到 $\boldsymbol{d}$ 和 $\boldsymbol{\lambda}$ $\begin{matrix} \underset{\boldsymbol{d}}{\min} & \dfrac{1}{2} \boldsymbol{d}^{\rm T} \boldsymbol{G} \boldsymbol{d} + (\boldsymbol{G} \boldsymbol{x} + \boldsymbol{c})^{\rm T} \boldsymbol{d} \\ \rm {s.t.} & \boldsymbol{a}_i^{\rm T} \boldsymbol{d} = 0, i \in I \end{matrix}$ $\qquad$
$\qquad \bold {if} \; \boldsymbol{d}=\bold0 \; \bold{do}$
$\qquad \qquad \bold{if} \; \boldsymbol{\lambda} \ge \bold0 \; \bold{do}$
$\qquad \qquad \qquad \bold{return} \; \boldsymbol{x}$
$\qquad \qquad \bold{else}$
$\qquad \qquad \qquad I \gets I \setminus \left \lbrace \argmin \lambda_i \right \rbrace$
$\qquad \qquad \bold{end}$
$\qquad \bold{else}$
$\qquad \qquad \alpha \gets \underset{i \notin I}{\min} \left \lbrace \dfrac{b_i - \boldsymbol{a}_i^{\rm T} \boldsymbol{x}}{\boldsymbol{a}_i^{\rm T} \boldsymbol{d}} \mid \boldsymbol{a}_i^{\rm T} \boldsymbol{d} > 0 \right \rbrace$
$\qquad \qquad \bold{if} \; \alpha < 1 \; \bold{do}$
$\qquad \qquad \qquad i \gets \underset{i \notin I}{\argmin} \left \lbrace \dfrac{b_i - \boldsymbol{a}_i^{\rm T} \boldsymbol{x}}{\boldsymbol{a}_i^{\rm T} \boldsymbol{d}} \mid \boldsymbol{a}_i^{\rm T} \boldsymbol{d} > 0 \right \rbrace$
$\qquad \qquad \qquad I \gets \ I \cup \lbrace i \rbrace$
$\qquad \qquad \bold{else}$
$\qquad \qquad \qquad \alpha \gets 1$
$\qquad \qquad \bold{end}$
$\qquad \qquad \boldsymbol{x} \gets \boldsymbol{x} + \alpha \boldsymbol{d}$
$\qquad \bold{end}$
$\bold{end}$

上述算法称为起作用指标集方法。

【例4】求解二次规划问题 $\begin{matrix} \min & (x_1 - 1)^2 + (x_2 - 2)^2 \\ \rm {s.t.} & x_1 + x_2 \le 1 \\ & x_1, x_2 \ge 0 \end{matrix}$ 【解】该问题对应的系数为 $\boldsymbol{G} = \begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix}, \boldsymbol{c} = \begin{bmatrix} -2 \\ -4 \end{bmatrix}, \boldsymbol{a}_1 = \begin{bmatrix} 1 \\ 1 \end{bmatrix}, \boldsymbol{a}_2 = \begin{bmatrix} -1 \\ 0 \end{bmatrix}, \boldsymbol{a}_3 = \begin{bmatrix} 0 \\ -1 \end{bmatrix}, \boldsymbol{b} = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}$ 显然, $\boldsymbol{x}_0 = [0, 0]^{\rm T}$ 是可行的, 初始化 $I_0 = A(0, 0) = \lbrace 2, 3 \rbrace$

第 $1$ 次迭代：
解二次规划问题 $\begin{matrix} \min & d_1^2 + d_2^2 - 2d_1 - 4d_2 \\ \rm {s.t.} & -d_1= 0 \\ & -d_2 = 0 \end{matrix}$ 得 $\boldsymbol{d} = [0, 0]^{\rm T}$ , $\boldsymbol \lambda = [0, -2, -4]^{\rm T} \le \bold 0$ , $\argmin \lambda_i = 3$ , 更新 $I_1 = \lbrace 2 \rbrace$

第 $2$ 次迭代：
解二次规划问题 $\begin{matrix} \min & d_1^2 + d_2^2 - 2d_1 - 4d_2 \\ \rm {s.t.} & -d_1= 0 \end{matrix}$ 得 $\boldsymbol{d} = [0, 2]^{\rm T} \ne \bold 0$ , 则计算 $\alpha = \underset{i \in \lbrace 1, 3 \rbrace}{\min} \left \lbrace \dfrac{b_i - \boldsymbol{a}_i^{\rm T} \boldsymbol{x}_0}{\boldsymbol{a}_i^{\rm T} \boldsymbol{d}} \mid \boldsymbol{a}_i^{\rm T} \boldsymbol{d} > 0 \right \rbrace = \dfrac{1}{2} < 1$ , $i = 1$ , 更新 $I_2 = \lbrace 1, 2 \rbrace$ , $\boldsymbol{x}_2 = [0, 1]^{\rm T}$

第 $3$ 次迭代：
解二次规划问题 $\begin{matrix} \min & d_1^2 + d_2^2 - 2d_1 - 4d_2 \\ \rm {s.t.} & d_1 + d_2 = 0 \\ & -d_1 = 0 \end{matrix}$ 得 $\boldsymbol{d} = [0, 0]^{\rm T}$ , $\boldsymbol \lambda = [2, 0, 0]^{\rm T} \ge \bold0$ , 迭代结束

所以最优解为 $1]^{\rm T}$ , 最优值为 $1$ 。

4. 惩罚函数法与障碍函数法

4.1 惩罚函数法

对于一般形式的约束最优化问题, 惩罚函数法通过添加惩罚项的方式将问题转化为无约束最优化问题, 从而可以使用无约束最优化方法求解原问题。对于一般形式的约束最优化问题 $\begin{matrix} \min & f(\boldsymbol{x}) \\ \rm {s.t.} & h_i(\boldsymbol{x}) = 0 & i = 1, 2, \cdots, l \\ & h_j(\boldsymbol{x}) \le 0 & j = l+1, l+2, \cdots, m \end{matrix}$ 惩罚函数法的求解步骤是：

给定 $\rho_1 > 0$ , 精度 $\varepsilon > 0$ , 初始点 $\boldsymbol{x}_0$ , 当前迭代次数 $k = 1$
第 $k$ 次迭代, 求解无约束优化问题 $\min P(\boldsymbol{x}, \rho_k) = f(\boldsymbol{x}) + \rho_k \left[ \sum_{i=1}^{l}h_i^2(\boldsymbol{x}) + \sum_{j=l+1}^{m} (\max \left \lbrace 0, h_j(\boldsymbol{x}) \right \rbrace)^2 \right]$ 得到最优解为 $\boldsymbol{x}_k$
若惩罚项满足 $\rho_k \left[ \sum_{i=1}^{l}h_i^2(\boldsymbol{x}_k) + \sum_{j=l+1}^{m} (\max \left \lbrace 0, h_j(\boldsymbol{x}_k) \right \rbrace)^2 \right] \le \varepsilon$ 则迭代结束, 最优解为 $\boldsymbol{x}_k$ , 否则取 $\rho_{k+1} > \rho_k$ , 继续迭代

通常来讲, 做题时, 迭代一次后令 $\rho \to +\infty$ 即可得到最优解。

【例5】用惩罚函数法求解 $\begin{matrix} \min & x_1^2 + x_2^2 \\ \rm {s.t.} & x_1 - 1 \ge 0 \\ & x_1 + x_2 = 3 \end{matrix}$ 【解】令 $\begin{align} P(x_1, x_2, \rho) & = x_1^2 + x_2^2 + \rho \left( x_1 + x_2 - 3 \right)^2 + \rho \left( \max \lbrace 0, 1 - x_1] \rbrace \right)^2 \nonumber \\ & = \begin{cases} x_1^2 + x_2^2 + \rho \left( x_1 + x_2 - 3 \right)^2, & x_1 > 1 \\ x_1^2 + x_2^2 + \rho \left( x_1 + x_2 - 3 \right)^2 + \rho(1 - x_1)^2, & x_1 \le 1 \end{cases} \nonumber \end{align}$ 则 $\dfrac{\partial P}{\partial x_1} = \begin{cases} 2x_1 + 2\rho ( x_1 + x_2 - 3), & x_1 > 1 \\ 2x_1 + 2\rho ( x_1 + x_2 - 3) - 2\rho(1 - x_1), & x_1 \le 1 \end{cases}$ $\dfrac{\partial P}{\partial x_2} = 2x_2 + 2\rho ( x_1 + x_2 - 3)$ 令 $\dfrac{\partial P}{\partial x_1} = \dfrac{\partial P}{\partial x_2} = 0$ 解得 $\boldsymbol{x} = \begin{cases} \left( \dfrac{3\rho}{2\rho + 1}, \dfrac{3\rho}{2\rho + 1} \right)^{\rm T}, & \rho > 1 \\ \dfrac{\rho}{\rho^2 + 3\rho + 1} \left( \rho + 4, 2\rho + 3 \right)^{\rm T}, & 0 < \rho \le 1 \end{cases}$ 所以原问题的最优解为 $\underset{\rho \to +\infty}{\lim} \boldsymbol{x} = \underset{\rho \to +\infty}{\lim} \left( \dfrac{3\rho}{2\rho + 1}, \dfrac{3\rho}{2\rho + 1} \right)^{\rm T} = \left( \dfrac{3}{2}, \dfrac{3}{2} \right)^{\rm T}$ 最优值为 $\dfrac{9}{2}$ 。

4.2 障碍函数法

对于仅含不等式约束的约束优化问题 $\begin{matrix} \min & f(\boldsymbol{x}) \\ \rm {s.t.} & h_i(\boldsymbol{x}) \le 0 & i = 1, 2, \cdots, m \end{matrix}$ 障碍函数法通过构造障碍函数 $b(\boldsymbol{x})$ 将其转化为无约束优化问题, 障碍函数 $b(\boldsymbol{x})$ 通常有以下两种构造方法： $b_1(\boldsymbol{x}) = -\sum_{i=1}^{m}\dfrac{1}{h_i(\boldsymbol{x})}, b_2(\boldsymbol{x}) = -\sum_{i=1}^{m}\ln \left[-h_i(\boldsymbol{x}) \right]$ 称 $b_1(\boldsymbol{x})$ 为倒数障碍函数, $b_2(\boldsymbol{x})$ 为对数障碍函数。障碍函数法的求解步骤是

给定 $r_1 > 0$ , 精度 $\varepsilon > 0$ , 初始点 $\boldsymbol{x}_0$ , 当前迭代次数 $k = 1$
第 $k$ 次迭代, 求解无约束优化问题 $\min B(\boldsymbol{x}, r_k) = f(\boldsymbol{x}) + r_kb(\boldsymbol{x})$ 得到最优解为 $\boldsymbol{x}_k$
若惩罚项满足 $r_kb(\boldsymbol{x}_k) \le \varepsilon$ 则迭代结束, 最优解为 $\boldsymbol{x}_k$ , 否则取 $r_{k+1} \in (0, r_k)$ , 继续迭代

通常来讲, 做题时, 迭代一次后令 $\to 0^+$ 即可得到最优解。

【例6】用障碍函数法求解 $\begin{matrix} \min & x_1^2 + x_2^2\\ \rm {s.t.} & x_1 - x_2 + 1 \le 0 \end{matrix}$ 【解】令 $B(x_1, x_2, r) = x_1^2 + x_2^2 - r\ln(x_2 - x_1 - 1)$ 则 $\dfrac{\partial B}{\partial x_1} = 2x_1 + \dfrac{r}{x_2 + x_1 - 1}, \dfrac{\partial B}{\partial x_2} = 2x_2 - \dfrac{r}{x_2 + x_1 - 1}$ 令 $\dfrac{\partial B}{\partial x_1} = \dfrac{\partial B}{\partial x_2} = 0$ 解得 $\boldsymbol{x} = \left( -\dfrac{1+\sqrt{1 + r}}{4}, \dfrac{1+\sqrt{1 + r}}{4} \right)^{\rm T}$ 所以原问题的最优解为 $\underset{r \to 0^+}{\lim} \boldsymbol{x} = \underset{r \to 0}{\lim} \left( -\dfrac{1+\sqrt{1 + r}}{4}, \dfrac{1+\sqrt{1 + r}}{4} \right)^{\rm T} = \left( -\dfrac{1}{2}, \dfrac{1}{2} \right)^{\rm T}$ 最优值为 $\dfrac{1}{2}$ 。

4.3 混合罚函数法

混合罚函数法综合使用惩罚函数和障碍函数, 目标函数为 $F(\boldsymbol{x}, r) = f(x) + + rb(\boldsymbol{x}) + \dfrac{p(\boldsymbol{x})}{r}$ 式中, $b(\boldsymbol{x})$ 为障碍函数, $p(\boldsymbol{x})$ 为惩罚函数。

5. 增广拉格朗日函数法

对于一般形式的约束最优化问题 $\begin{matrix} \min & f(\boldsymbol{x}) \\ \rm {s.t.} & h_i(\boldsymbol{x}) = 0 & i = 1, 2, \cdots, l \\ & h_j(\boldsymbol{x}) \le 0 & j = l+1, l+2, \cdots, m \end{matrix}$ 定义其增广拉格朗日函数为 $L_\sigma(\boldsymbol{x}, \boldsymbol{\lambda}) = f(\boldsymbol{x}) + \sum_{i=1}^{l}\lambda_i h_i(\boldsymbol{x}) + \dfrac{\sigma}{2}\sum_{i=1}^{l}h_i^2(\boldsymbol{x}) + \dfrac{1}{2\sigma} \sum_{j=l+1}^{m} \left \lbrace \left[ \max \left \lbrace 0, \lambda_j + \sigma h_j(\boldsymbol{x}) \right \rbrace \right]^2 - \lambda_j^2 \right \rbrace$ 第 $k$ 次迭代, 令 $\nabla_{\boldsymbol{x}}L(\boldsymbol{x}, \boldsymbol{\lambda}) = \bold0$ 解得 $\boldsymbol{x}_k$ , 然后按以下公式修正拉格朗日系数 $(\boldsymbol{\lambda}_{k+1})_i = \begin{cases} (\boldsymbol{\lambda}_k)_i + \sigma h_i(\boldsymbol{x}_k), & 1 \le i \le l \\ \max \lbrace 0, (\boldsymbol{\lambda}_k)_i + \sigma h_i(\boldsymbol{x}_k) \rbrace, & l < i \le m \end{cases}$ 通常来讲, 做题时, 迭代一次, 然后计算 $\boldsymbol{\lambda}_k$ 的极限, 将极限值代入即可得到最优解。

【例7】用增广拉格朗日函数法求解 $\begin{matrix} \min & 3x_1^2 + x_2^2 \\ \rm {s.t.} & x_1 + x_2 = 1 \end{matrix}$ 【解】令 $L_\sigma(x_1, x_2, \lambda) = 3x_1^2 + x_2^2 + \lambda(x_1 + x_2 - 1) + \dfrac{\sigma}{2}(x_1 + x_2 - 1)^2$ 则 $\nabla_{\boldsymbol{x}}L_\sigma(x_1, x_2, \lambda) = [6x_1 + \lambda + \sigma(x_1 + x_2 - 1), 2x_2 + \lambda + \sigma(x_1 + x_2 - 1)]^{\rm T}$ 令 $\nabla_{\boldsymbol{x}}L_\sigma(x_1, x_2, \lambda) = \bold0$ 解得 $\boldsymbol{x}_k = \left[ \dfrac{\sigma - \lambda_k}{4\sigma + 6}, \dfrac{3\sigma - 3\lambda_k}{4\sigma + 6} \right]^{\rm T}$ 从而 $\lambda_{k+1} = \lambda_k + \sigma \left( \dfrac{\sigma - \lambda_k}{4\sigma + 6} + \dfrac{3\sigma - 3\lambda_k}{4\sigma + 6} - 1 \right) = \dfrac{3(\lambda_k - \sigma)}{2\sigma + 3}$ 当 $\lambda_1 > -\dfrac{3}{2}$ 时, 由数学归纳法易证 $\lambda_k > -\dfrac{3}{2}$ , 于是 $\lambda_{k+1} - \lambda_k = \dfrac{3(\lambda_k - \sigma)}{2\sigma + 3} - \lambda_k = -\dfrac{\sigma}{2\sigma + 3}(3 + 2\lambda_k) < 0$ 即数列 $\lbrace \lambda_k \rbrace$ 单调递减且有界, 故 $\lambda_k$ 的极限存在, 设为 $\gamma$ , 对 $\lambda_k$ 的递推式两边同时取极限得 $\gamma = \dfrac{3(\gamma - \sigma)}{2\sigma + 3}$ 解得 $\gamma = -\dfrac{3\sigma}{2\sigma} = -\dfrac{3}{2}$ 所以原问题的最优解为 $\underset{k \to +\infty}{\lim} \boldsymbol{x}_k= \left[ \dfrac{\sigma - \gamma}{4\sigma + 6}, \dfrac{3\sigma - 3\gamma}{4\sigma + 6} \right]^{\rm T} = \left[ \dfrac{1}{4}, \dfrac{3}{4} \right]^{\rm T}$ 最优值为 $\dfrac{3}{4}$ 。