最优化理论与算法-ADMM的先导知识

最新推荐文章于 2024-02-26 16:36:31 发布

Titus Zhao

最新推荐文章于 2024-02-26 16:36:31 发布

阅读量916

点赞数 1

分类专栏：优化算法文章标签：算法动态规划

本文为博主原创博文，转载请注明出处。如有错误请批评指正！

本文链接：https://blog.csdn.net/Titus_1996/article/details/105683315

版权

优化算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

ADMM结合了对偶更新和拉格朗日乘子的优缺点。

对偶问题

以凸等式约束优化问题为例：
目标函数： $min{f(x)}$ $s u b j e c t$ $t o$ $A x = b$
那么它的拉格朗日函数为： $\lambda)=f(x)+\lambda(Ax-b)$

其对偶式为： $g(\lambda) = inf_x{L(x, \lambda)}$ ,其中 $inf_x$ 指的是给定一个 $x$ ，求 $g(\lambda)$ 函数的上界。既然给定了 $x$ ，就不再是 $x$ 的函数了，相对于 $\lambda$ 就是常数，这就是为什么是求 $g(\lambda)$ 的函数。所以对偶问题为：
$\max{g(\lambda)}$

对偶上升

在前面我们讲的最速梯度下降和牛顿法都是通过梯度下降来求最优解。为什么？因为那是求解凸函数。看到这里的“上升”，你能想到什么？对！解决的是凹函数。上面的对偶问题 $\max{g(\lambda)}$ 是一个凹函数。
因此，迭代更新的过程为：
$\lambda^{k+1}=\lambda^{k}+\alpha^{k}\Delta{g(\lambda^k)}$ ，其中 $\Delta{g(y^k)}=A\tilde{x}-b$ where $\tilde{x}=\underset{x}{\argmin}{L(x, \lambda^{k})}$

首先，优化主问题： $x^{k+1}=\underset{x}{\argmin}{L(x, \lambda^{k})}$
然后对偶更新: $\lambda^{k+1}=\lambda^{k}+\alpha^{k}({Ax^{k+1}-b})$

对偶分解

再依次把目标函数拿出来：
$min{f(x)}$ $s u b j e c t$ $t o$ $A x = b$
实际上， $x$ 很有可能是多变量，因此我们做一次推广，即 $x=(x_1,x_2,......x_n)$ 。当然 $x_i$ 也可以是向量或矩阵。

对于这么一个求多变量的函数极值问题，我们希望可以将其分解不同单变量的函数叠加，就像谐波分解一样。因此，假设 $f (x)$ 可分解: $f(x)=f_1(x_1)+f_2(x_2)+......+f_n(x_n)$

那么，我们将式子重新带入拉格朗日函数：
$\lambda)=f_1(x_1)+\lambda_1(A_1x_1-b)+f_2(x_2)+\lambda_2(A_2x_2-b)+......+f_n(x_n)+\lambda_n(A_nx_n-b)$

因此， $L(x_i, \lambda_i)=f_i(x_i)+\lambda^{T}A_ix_i$
从而，求主问题，从上面的单变量变成了:
$x^{k+1}_i=\underset{x_i}{\argmin}{L(x_i, \lambda^{k})}$ , 这不就是上面单变量的对偶上升法的主问题嘛！由于x是相互独立的，因此就可以并行计算。

那么，函数可分解可以将原问题分成许多子问题。那么能够这样做有什么限制吗？那就是约束条件一定要是线性的（这里可以联想信号与系统中判断系统是否是线性）。我们知道增广拉格朗日函数是在拉格朗日函数基础上加了一个二次项，二次项是增加凸性，但破坏了拉格朗日函数的可分解特性，原因就在于此，对两者的对比可以查看此文章。

那么，优化步骤变成了（对比对偶上升）：
原问题（子问题）: $x^{k+1}_i=\underset{x_i}{\argmin}{L_i(x_i, \lambda^{k})}$ ， $i = 1, . . . . . . . n$
对偶更新: $\lambda^{k+1}=\lambda^{k}+\alpha^{k}({\sum_{i=1}^{n}A_ix^{k+1}_i-b})$

总而言之，对偶分解是在对耦上升基础上更进一步，将主问题分解成子问题求解。对于每个子问题，其实就是对偶上升求解的。

这种分解方式可以使得并行计算，从而加速收敛，但是对偶上升的缺点并没有得到解决：对偶更新的时候只是用了一阶信息，而一阶鲁棒性很差，从最速梯度下降法我们知道，这种最速梯度上升法同样很依赖学习率 $\alpha^k$ ，而且越到收敛点梯度 ${\sum_{i=1}^{n}A_ix^{k+1}_i-b}$ 越接近0，因此更新得越来越慢（可参见这篇文章）

怎么解决？就是在原来的拉格朗日函数的基础上加上一个二次约束项： $L_p(x, \lambda)=f(x)+\lambda^{T}(Ax-b)+\frac{\rho}{2}\left \| Ax-b\right \|^2_2$ ，这可以提高收敛的鲁棒性。

引入二次项破坏了拉格朗日乘子可分解性，无法使用对偶分解。而要使用对偶分解又只能是线性约束，而这个问题就可以使用ADMM来解决。我在另一篇博文已经有过分享！

这篇博文就当一个先导内容的介绍吧!

Titus Zhao

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
最优化理论与算法-ADMM的先导知识

ADMM结合了对偶更新和拉格朗日乘子的优缺点。对偶问题以凸等式约束优化问题为例：目标函数：min⁡f(x)\min{f(x)}minf(x) subjectsubjectsubject tototo Ax=bAx=bAx=b那么它的拉格朗日函数为：L(x,λ)=f(x)+λ(Ax−b)L(x, \lambda)=f(x)+\lambda(Ax-b)L(x,λ)=f(x)+λ(Ax−b)...
复制链接

扫一扫

专栏目录