ADMM算法（交替方向乘子法）

最新推荐文章于 2024-05-10 16:41:52 发布

BigYouYou

最新推荐文章于 2024-05-10 16:41:52 发布

阅读量1.7w

点赞数 17

分类专栏：数学

本文链接：https://blog.csdn.net/qq_30565883/article/details/104173142

版权

数学专栏收录该内容

8 篇文章 12 订阅

订阅专栏

有了前面标准Lagrangian乘子法与对偶上升法和增广Lagrangian法的基础，理解ADMM就容易了很多。本文主要来自张贤达《矩阵分析与优化（第二版）》4.7.4节。

ADMM算法

ADMM认为，在统计学与机器学习中，经常会遇到大尺度的等式约束优化问题，即 $x\in \mathbb{R}^n$ 的维数 $n$ 很大。如果 $x$ 可以分解为几个子向量，即 $x=(x_1,\cdots,x_r)$ ，其目标函数也可以分解为：
$f(x)=\sum_{i=1}^r f_i(x) \\ x_i\in \mathbb{R}^{n_i},\sum_{i=1}^r n_i=n$
则大尺度的优化问题可以转化为分布式优化问题。相应的，等式约束矩阵 $A x = b$ 也分块为：
$A=[A_1,\cdots,A_r], Ax=\sum_{i=1}^r A_ix_i=b$
于是增广Lagrangian目标函数 $L_\rho(x,\lambda)$ 可以写作：
$L_\rho(x,\lambda)=\sum_{i=1}^r(f_i(x_i)+\lambda^TA_ix_i)-\lambda^Tb+\frac{\rho}{2}\|\sum_{i=1}^r(A_ix_i)-b\|_2^2$
所取的罚函数与增广Lagrangian乘子法中的仍相同。再采用对偶上升法，即可得到能进行并行运算的分散算法：
$x_i^{k+1}=\argmin_{x_i\in \mathbb{R}^{n_i}} L_i(x_i,\lambda_k),i=1,\cdots,r \\ \lambda_{k+1}=\lambda_k+\rho_k (\sum_{i=1}^r A_i x_i^{k+1}-b)$
这里的 $x_i$ 是可以独立更新的。由于 $x_i$ 以一种交替的或序贯的方式进行更新，所以称为“交替方向”乘子法（ADMM算法）。

举个 $r = 2$ 的例子

$r = 2$ ，则目标函数为：
$\min f(x)+g(z)\\ s.t.\ Ax+Bz=c$
上式中， $x\in \mathbb{R}^n,z\in \mathbb{R}^m,A\in \mathbb{R}^{p\times n},B\in \mathbb{R}^{p\times m},c\in \mathbb{R}^{p}$ 。则增广Lagrangian目标函数为：
$L_\rho(x,z,\lambda)=f(x)+g(z)+\lambda^T(Ax+Bz-c)+\frac{\rho}{2}\|Ax+Bz-c\|_2^2 \\ \tag{1}$
上式的交替方向乘子法的更新公式为：
$x_{k+1}=\argmin_{x\in \mathbb{R}^n} L_\rho(x,z_k,\lambda_k)\\ z_{k+1}=\argmin_{z\in \mathbb{R}^m} L_\rho(x_{k+1},z,\lambda_k)\\ \lambda_{k+1}=\lambda_k+\rho_k(Ax_{k+1}+Bz_{k+1}-c)$

误差分析与停止条件

公式 $(1)$ 的最优化条件分为原始可行性：
$A x + B z - c = 0$
和对偶可行性：
$0\in \partial f(x)+A^T\lambda+\rho A^T(Ax+Bz-c)=\partial f(x)+A^T\lambda \\ 0\in \partial f(x)+B^T\lambda+\rho B^T(Ax+Bz-c)=\partial g(z)+B^T\lambda \\ \tag{2}$
根据我的企业级理解，这原始和对偶可行性关系分别是等式约束成立和偏导为0，是从KKT条件来的，都是必要条件。不过书里没有明确指出是或者不是。
关于推导，这里用的是 $0\in$ 而不是 $0 =$ ，这是什么企业级逻辑我没弄懂，不过我觉得不影响理解，意思差不多。书上这里求导有问题，疑似纰漏，我改成了公式 $(1)$ 的正确的求导结果，这样也和后文更对的上。要记得，公式 $(1)$ 中向量 $A x + B z - c$ 二范数平方的一阶导等于向量的二倍，再乘一个系数 $A^T$ ，就可以得到这个结果。求导法则可以参考我的这篇总结。再加上 $A x + B z - c = 0$ 的约束，就能推导下来了。

在迭代的过程中，原始可行性不可能完全满足，设其误差为：
$r_k=Ax_k+Bz_k-c$
称为第 $k$ 次迭代的原始残差（向量），这样Lagrangian乘子向量的更新可以用这个残差重写为：
$\lambda_{k+1}=\lambda_k+\rho_k r_{k+1}$
同样，对偶可行性也不会完全满足：
$0\in \partial f(x_{k+1})+A^T\lambda_k+\rho A^T(Ax_{k+1}+Bz_k-c) \\ =\partial f(x_{k+1})+A^T[\lambda_k+\rho (Ax_{k+1}+Bz_{k+1}-c)+\rho B(z_k-z_{k+1})] \\ =\partial f(x_{k+1})+A^T[\lambda_k+\rho r_{k+1}+\rho B(z_k-z_{k+1})]\\ =\partial f(x_{k+1}) +A^T\lambda_{k+1}+\rho A^TB(z_k-z_{k+1})$
注意，由于书上公式 $(2)$ 求导是错的，所以这一步更别扭，怎么看都不对劲，这里我也改成了我认为的正确的推导形式。
对照公式 $(2)$ 中的第一个式子可知对偶残差为：
$s_{k+1}=\rho A^TB(z_k-z_{k+1})$
交替方向乘子法的停止条件就是两个残差都小于阈值：
$\|r_{k+1}\|_2\le \varepsilon_{pri} \ and \ \|s_{k+1}\|\le \varepsilon_{dual}$

缩放形式的ADMM

令 $v=(1/\rho)\lambda$ 为经过 $1/\rho$ 缩放的Lagrangian乘子向量，则更新公式变为：
$x_{k+1}=\argmin_{x\in \mathbb{R}^n} L_\rho(x,z_k,v_k)\\ z_{k+1}=\argmin_{z\in \mathbb{R}^m} L_\rho(x_{k+1},z,v_k)\\ v_{k+1}=v_k+Ax_{k+1}+Bz_{k+1}-c=v_k+r_{k+1}$
其第 $k$ 次迭代的残差 $r_k$ 为：
$r_k=Ax_k+Bz_k-c=v_0+\sum_{i=1}^kr_i$
即，第 $k$ 次迭代的缩放对偶向量是所有 $k$ 次迭代的原始残差之和。这种方法称为有缩放的交替方向乘子法。

最后，个人认为，不论是对偶上升法，增广Lagrangian乘子法，还是ADMM算法，核心思想都相似，而且具体使用时都要与其他最优化方法结合，因为 $\argmin L(x,z,\lambda)$ 的求解是还需要别的方法的，停止条件需要根据使用环境具体再去确定。

BigYouYou

关注

17
点赞
踩
193

收藏

觉得还不错? 一键收藏
6
评论
ADMM算法（交替方向乘子法）

有了前面标准Lagrangian乘子法与对偶上升法和增广Lagrangian法的基础，理解ADMM就容易了很多。本文主要来自张贤达《矩阵分析与优化（第二版）》4.7.4节。ADMM算法ADMM认为，在统计学与机器学习中，经常会遇到大尺度的等式约束优化问题，即x∈Rnx\in \mathbb{R}^nx∈Rn的维数nnn很大。如果xxx可以分解为几个子向量，即x=(x1,⋯ ,xr)x=(x_1...
复制链接

扫一扫