ADMM

最新推荐文章于 2024-08-28 22:50:10 发布

monkey-PI

最新推荐文章于 2024-08-28 22:50:10 发布

阅读量8.8k

点赞数 12

分类专栏：数学文章标签：优化

数学专栏收录该内容

19 篇文章 0 订阅

订阅专栏

背景知识

对偶上升

等式约束优化问题：
在这里插入图片描述
$f$ 是凸函数，2.1的拉格朗日项为：

其对偶函数为：

inf代表下确界，之所以用下确界而不是用min，可能是因为有些函数没有极值（定义域取不到），但有一个下确界。
y是拉格朗日乘子项的对偶变量
则原问题的对偶问题变为：
在这里插入图片描述
在强凸性质下，原问题和对偶问题的最优解是一样的。
我们可以从对偶的最优点 $y^*$ 恢复出原优化问题的最优点 $x^*$ ：

利用梯度上升法：

上述条件很严苛，

$f (x)$ 要求严格凸，并且 $\alpha$ 选择要比较合适，一般应用中都不会满足。因此对偶上升不会直接应用。

对偶分解：

尽管对偶上升的条件很严苛，但是它有时写成并行算法，当目标函数 $f$ 是可分离的时候：
在这里插入图片描述
$x=(x_1,x_2,....,x_N)$ 并且矩阵A可以分解为 $A=[A_1,...A_N]$ ，
$Ax=\sum_{i=1}^{N}A_ix_i$
故拉格朗日项可以写成：

因此迭代优化的时候， $min_x$ 可以拆成多个问题的并行优化，对偶变量更新不变这对于参数特别多的特别有用。
在这里插入图片描述

增广拉格朗日和乘子法

增广拉格朗日方法是在罚函数的基础上增加了拉格朗日乘子项，故称为增广拉格朗日函数。
其放松了 $f (x)$ 严格凸的假设和一些其它条件，同时使得算法更加稳健。2.1的问题变为：
在这里插入图片描述
等价于

惩罚项的好处是使得对偶函数

在更一般的条件下可导：
增广拉格朗日相比于对偶上升多了一个平方项，但这个平方项无法分离，使得不能利用对偶上升的分块思想并行优化。所以针对此的改进，ADMM算法诞生了。

ADMM

为了整合对偶上升的可分解性和增广拉格朗日法(也叫乘子罚函数法)优秀的收敛性质，ADMM（Alternating Direction of Method of Multipliers）结合了两者的优点，
最开始(2.1)的优化问题可以写为：
在这里插入图片描述
于是：
对偶分解的时候 $x=(x_1,x_2,....,x_N)$ ，在二次项里面不能被写成分块的形式，但在这里x被分成了x和z，天生分块，并且z作为一个独立变量不需要融合进x，保证了过程的可分解性。
于是：

ADMM算法包括了除x以外的 $z^{k+1},y^{k+1})$ ，它是 $z^{k},y^{k})$ 的函数，x并不在其中。

scaled Form—简化ADMM

令残差 $r=Ax+Bz-c,u=(1/\rho) *y$ ，增广拉格朗日项的线性项和二次项可以写成：
在这里插入图片描述
于是简化后的ADMM：常数项可以忽略

每次迭代时残差 $r^{k}=Ax^{k}+Bz^{k}-c$ ，故

ADMM的具体应用

约束凸优化问题

一般受约束的凸优化问题可以写成如下形式：
在这里插入图片描述
$f$ 为凸函数， $C$ 为凸集
增加分离变量，写成ADMM形式：

$g$ 是z的指示函数，即在 $x\in C$ 时有值；
其增广拉格朗日为：

ADMM的缩放形式：

这里的z的形式可以通过求导取极值点得到。

一般的l1损失函数

更为一般的优化模型：
在这里插入图片描述
$l$ 为凸损失函数
写成ADMM可以使用的形式：

其中， $g(z)=\lambda ||z||_1$

$x - u p d a t e$ 是proximal operator evaluation，如果 $l$ 是平滑的，则可以用牛顿法、拟牛顿法（quasi Newton method）、共轭梯度法来解决，如果 $l$ 是二次项，x-min 能够直接解线性方程组。

Lasso

L1正则线性回归也叫Lasso， $l(x)=(1/2)||Ax-b||_2^2$ ，
这里的l就是二次项，我们尝试着解解方程
在这里插入图片描述
ADMM形式：

$f(x)=(1/2)||Ax-b||_2^2$ ， $g(z)=\lambda ||z||_1$
根据上面的scaled-form形式，可以推出：
$x^{k+1}=argmin_x (1/2)||Ax-b||_2^2+\frac{\rho}{2}||x-z^{(k)}+u^{(k)}||_2^2 \\ z^{(k+1)}=argmin_z\lambda ||z||_1+\frac{\rho}{2}||x^{k}-z+u^{(k)}||_2^2\\ u^{(k=1)}=u^{(k)}+x^{k}-z^{(k)}$
对x的更新求导取零：
$A^T(Ax-b)+\rho (x-z^{k}+u^{k})=0 \\ (A^TA+\rho I)x-(A^Tb+\rho (z^{k}-u^{k}))=0\\ x^{k+1} =(A^TA+\rho I)^-1(A^Tb+\rho (z^{k}-u^{k}))$
$z$ 的更新用上面的subgradient引入的soft thresholding：
在这里插入图片描述
注意 $A^TA+\rho I$ 总是可逆的，since $\rho >0$ .
这里的矩阵可以可以作一些分解使得迭代收敛更快，详情见[4]。

x-update exploit

在x变量更新时，里面的 $f, g, A, B$ 涉及到矩阵的运算，涉及到大量的数据时，迭代的速度会变得缓慢，因此，对x-update的开发求解很重要。
简化x-update的分析：
在这里插入图片描述
尽管z是一个变量，但在x迭代中是一个常量，因此 $v = - B z + c - u$ 当作一个常量即可。

Proximity Operator 近端（临近）算子

再次简化 $A = I$ ，
在这里插入图片描述
作为 $v$ 的函数，右边的项也被定义为 $prox_{f,\rho}(v)$ ，被称为带惩罚项 $\rho$ 的f的近端算子。
在变分分析中，以f的Moreau envelope or Moreau-Yosida regularization的而出名。并且与the proximal point algorithm有关系

近端算子里的x-min也被称为近端优化。

尽管这不会对我们的ADMM加快效率，但是当f足够简单时，我们可以更方便的分析x-update,比如f是一个闭合非空凸集C的指示函数：
在这里插入图片描述
f的近端算子就退化为一个C上的欧几里得距离：

因此，近端运算符可以被视为广义投影。f的近端算子也可以被解释为f的一种梯度。
（就像上面的约束凸优化问题一样）