最优化方法(学习笔记)-第十一章等式约束优化问题-CSDN博客

本文链接：https://blog.csdn.net/u011412840/article/details/114956396

等式约束优化问题

等式约束的基本定义
消除等式约束
基于feasible初值的牛顿法
基于infeasible初值的牛顿法
- 通过解原对偶问题解释原理
- 求解KKT系统
实例
总结

等式约束的基本定义

等式约束问题
$\min{f(x)},s.t. Ax=b，A\isin R^{p\times n},rank(A)=p$

f是凸函数，二次可微，假设 $p^*$ 是存在且确定的， $p < n$ ，即约束条件小于变量维数，可以存在多解，否则可能会无解
等式约束的对偶问题
拉格朗日函数： $L(x,\nu)=f(x)+\nu^T(Ax-b)$ ，设最优点 $x^*$

由此得到KKT条件方程组 $\begin{cases}Ax^*=b \\ \nabla f(x^*)+A^T\nu^*=0 \end{cases}$

$x^*是最优点，\nu^*是对偶最优点，p^*=\inf_x\{f(x) | Ax=b\}=f(x^*)$
例子：二次规划问题

$\begin{cases}\min{\frac12x^TPx+q^Tx+r} \\ Ax=b \end{cases}\implies\begin{cases}Ax=b \\ Px+q+A^T\nu^*=0 \end{cases}$

前一个左边的矩阵 $(n+p)\times(n+p)$ ，复杂度是 $O((n+p)^3)$
二次规划问题仅求导一次就可以实现KKT条件，所以
- 牛顿法（迭代步需要求二阶导）：利用二次函数（存在海森矩阵）去逼近普通函数（下文的目标）
- 梯度下降法：利用一次函数（存在导数）去逼近普通函数

消除等式约束

通过变量替换实现等式消除
- 变量替换 $x^*=Fz^*+\hat{x}$
  
  若 $\hat{x}$ 是任意的一个特解，那么可以实现变换 $\{x|Ax=b\}=\{Fz+\hat{x}|z\isin R^{(n-p)}\}$
  
  $于是得到A(Fz+\hat{x})=b\implies AFz=0\implies A_{p\times n}F_{n\times(n-p)}=0$
  
  于是A的行组成空间与F的列组成空间正交，即A的零空间就是F的值空间。
  
  $\min{f(x)},s.t. Ax=b \iff \min_z \hat{F}(z)=f(Fz+\hat{x})$ 【把等式约束加到目标函数里，变成无约束问题】
- 求解对偶最优解 $\nu^*$
  
  原问题的KKT系统： $\nabla f(x^*)+A^T\nu^*=0$ ，同时左乘矩阵A（实现满秩运算）
  
  得到 $\nu^*=-(AA^T)^{-1}A\nabla f(x^*)$
  
  验证目标： $\nabla f(x^*)-A^T(AA^T)^{-1}A\nabla f(x^*)=0$
  
  左乘一个满秩矩阵
  
  基于KKT系统，存在u使得 $\nabla f(x^*)+A^T u=0$ ，同时左乘 $F^T$ ，再因为 $A F = 0$
  于是推导得 $F^T\nabla f(x^*)=0$ ；左乘矩阵A可以发现等式恒成立，综上，得证。
- 原问题转变成
通过对偶问题实现等式消除

$L(x,\nu)=f(x)+\nu^T(Ax-b)$

$g(\nu)=\inf_xL(x,\nu)=-b^T\nu+\inf_x(f(x)+\nu^TAx)$

$=-b^T\nu-\sup_x(-(A^T\nu)^Tx-f(x))=-b^T\nu-f^*(-A^T\nu)$ 【共轭函数-第三章凸函数】

对偶问题： $\max{(-b^T\nu-f^*(-A^T\nu))},g(\nu^*)=p^*$
例子
- 变量替换
  
  重点是找到特解 $\hat x$
- 对偶问题

基于feasible初值的牛顿法

牛顿法：利用二次导数逼近【设 $\triangle x_{nt}=v$ 】

问题变成： $\min_v\hat f(x+v)=f(x)+\nabla f(x)v+\frac12v^T\nabla^2f(x)v, \quad s.t. A(x+v)=b$

设x是一个可行解（ $A x = b, A v = 0$ ），基于KKT系统，存在w使得 $\nabla_v \hat f(x+v)+A^Tw=0$

将 $\nabla \hat f(x+v)=0$ 带入KKT条件得： $\begin{cases}\nabla f(x)+\nabla^2f(x)v+A^Tw=0 \\ Av=0 \end{cases}$

（演变成求解该矩阵方程，求 $\triangle x_{nt}=v，对偶w$ ）
当A=0时，该等式问题就退化到无约束问题
Newton decrement
- 性质
- 部分证明
  
  $\lambda(x)=(\triangle x_{nt}^T\nabla^2f(x)\triangle x_{nt})^{\frac12}$ ，衡量 $x到x^*$ 的距离，可以作为二阶逼近下的停止条件。
  
  $\hat f(x+\triangle x)=f(x)+\nabla f(x)^T\triangle x+\frac12\triangle x^T\nabla^2f(x)\triangle x$
  
  设 $H=\nabla^2f(x)，g=\nabla f(x)，\triangle x=\triangle x_{nt}=v$ , KKT系统： $\begin{cases}H\triangle x+A^Tw=-g \\ A\triangle x=0 \end{cases}$
  
  第一个式子左右两边左乘 $\triangle x^T$ ，得到 $\triangle x^TH\triangle x=-\triangle x^Tg$ ，
  
  带回得 $\hat f(x+\triangle x)=f(x)-\frac12\triangle x^T\nabla^2f(x)\triangle x$
  
  $f(x)-\inf_v\{\hat f(x+v)|A(x+v)=b\}=f(x)-\hat f(x+\triangle x)=\frac12\lambda^2(x)$
- 结论
  - 误差 $f(x)-p^*$ 不断变小
  - 方向导数恒小于0
算法步骤
牛顿法=消除等式+牛顿法
【把等式约束加入（x可行域内）一起做牛顿下降法】，等价于【把变量消除掉，再去做牛顿法】

结论： $\min_x{f(x)},s.t. Ax=b\iff \min_z\tilde f(z)=f(Fz+\hat x),s.t. A\hat x=b$
- 两种问题对比
- 证明
  
  $\nabla \tilde f(z)=F^T\nabla f(Fz+\hat x)，\nabla^2\tilde f(z)=F^T\nabla^2 f(Fz+\hat x)F$ 【加入等式约束】
  
  牛顿迭代步： $\triangle z_{nt}=-\nabla^2 \tilde f(z)^{-1}\nabla \tilde f(z)=-(F^T\nabla^2 f(Fz+\hat x)F)^{-1}F^T\nabla f(Fz+\hat x)$
  
  $X=Fz+\hat x\implies\triangle x_{nt}=F\triangle z_{nt}$
  
  一阶KKT条件： $\nabla f(x+\triangle x_{nt})+A^Tw=0$ ，得到 $w=-(AA^T)^{-1}A(\nabla f(x)+\nabla^2f(x)\triangle x_{nt})$
  
  二阶KKT条件： $\nabla^2 f(x)\triangle x_{nt}+A^Tw+\nabla f(x)=0$ ，得到 $\begin{bmatrix}F^T\\A\end{bmatrix}\begin{bmatrix} \nabla^2 f(x)\triangle x_{nt}+A^Tw+\nabla f(x) \end{bmatrix}=0$
  
  根据 $F^TA^Tw=0$ ，发现矩阵方程成立，于是得到 $\tilde \lambda^2(z)=\lambda^2(x)$ ，即迭代逼近的效果相同

基于infeasible初值的牛顿法

初始点infeasible，但是希望 $x+\triangle x_{nt}$ 满足二阶KKT条件 $\begin{cases}\nabla^2 f(x)\triangle x_{nt}+A^Tw+\nabla f(x)=0\\A(x+\triangle x_{nt})=b\end{cases}$

通过解原对偶问题解释原理

设置迭代步 $r (x, v)$ 满足KKT条件，希望迭代步 $r (x, v)$ 不断逼近0

注：雅可比矩阵
算法步骤
下降性质
infeasible初值的不一定一直保持下降，虽然函数不一定下降，但是残差一定下降

求解KKT系统

KKT系统
求解方法
- $LDL^T$ 分解
  $B=PLDL^TP^T$ ，P是置换矩阵，L是下三角矩阵，D是块矩阵
  
  复杂度： $O(\frac13(n+p)^3)$
- 消元法
  
  结果： $v=-H^{-1}(g+A^Tw),w=(AH^{-1}A^T)^{-1}(h-AH^{-1}g)$
  
  时间复杂度 $O(n^3+p^3)$

实例

例子&如何降低计算
- 等式约束牛顿法
- 对偶问题+无约束牛顿法
- infeasible初值的牛顿法
结论：无论哪种方法，（设D是正对角阵）总要计算 $ADA^Tw=h$
Network flow optimization
Analytic center of linear matrix inequality

总结

基本定义： $min{f(x)},s.t. Ax=b$
直接解KKT条件（例子-二次规划函数）
$\begin{cases}Ax^*=b \\ \nabla f(x^*)+A^T\nu^*=0 \end{cases}$
消除等式约束
- 通过变量替换
  - $x=Fz+\hat x$ 【通解+特解】
  - 求解对偶变量 $\nu^*=-(AA^T)^{-1}A\nabla f(x^*)$ 【LSE逼近】
- 通过对偶问题
  $\max{(-b^T\nu-f^*(-A^T\nu))},g(\nu^*)=p^*$
基于feasible初值的牛顿法
- 二阶展开，先做二阶展开，带入KKT求导得到极值，再套上迭代量含义。（一阶展开，将迭代量带入KKT条件，再做一阶展开）
- Newton decrement： $\lambda(x)=(\triangle x_{nt}^T\nabla^2f(x)\triangle x_{nt})^{\frac12}$
  可以衡量 $x到x^*$ 的距离，可以作为二阶逼近下的停止条件
  - 误差 $f(x)-p^*$ 不断变小
  - 方向导数恒小于0
- 牛顿法=消除等式+牛顿法
  $\min_x{f(x)},s.t. Ax=b\iff \min_z\tilde f(z)=f(Fz+\hat x),s.t. A\hat x=b$
基于infeasible初值的牛顿法
- 基本定义：
  
  初始点infeasible，但是希望 $x+\triangle x_{nt}$ 满足二阶KKT条件 $\begin{cases}\nabla^2 f(x)\triangle x_{nt}+A^Tw+\nabla f(x)=0\\A(x+\triangle x_{nt})=b\end{cases}$
- 通过解原对偶问题解释原理
  - 设置迭代步 $r (x, v)$ 满足KKT条件
  - 希望迭代步 $r (x, v)$ 不断逼近0
- 下降性质
  infeasible初值的不一定一直保持下降，虽然函数不一定下降，但是残差一定下降
- 具体的算法流程
KKT系统方程的求解
- $LDL^T$ 分解
  
  普通矩阵 $B=PLDL^TP^T$ ，P是置换矩阵，L是下三角矩阵，D是块矩阵
  
  复杂度： $O(\frac13(n+p)^3)$
- 消元法
  
  $v=-H^{-1}(g+A^Tw),w=(AH^{-1}A^T)^{-1}(h-AH^{-1}g)$
  
  时间复杂度 $O(n^3+p^3)\sim O(n^3)$
三种求解牛顿法的实例
- 等式约束牛顿法
- 对偶问题+无约束牛顿法
- infeasible初值的牛顿法