ADMM随堂笔记（3）：一致和协同

最新推荐文章于 2022-02-08 16:28:03 发布

文章全靠抄

最新推荐文章于 2022-02-08 16:28:03 发布

阅读量4k

点赞数 4

分类专栏：学习笔记文章标签： ADMM ADMM一致 ADMM共享 ADMM协同

本文链接：https://blog.csdn.net/weixin_42406148/article/details/100560157

版权

本文深入探讨ADMM（交替方向乘子法）在全局变量一致性优化和协同问题中的应用。通过ADMM算法，可以将目标函数和约束分散到多个处理器上，并通过二次正则化项确保变量收敛到公共解。文章详细阐述了ADMM的迭代过程，解释了如何通过平均数来实现变量的一致性，并讨论了带正则化的全局变量一致性问题。此外，还介绍了协同问题的对偶性，指出一致性问题和协同问题之间存在对偶关系，可以互相转换求解。

摘要由CSDN通过智能技术生成

7.1 全局变量一致性优化（Global Variable Consensus Optimization）

首先，考虑一个全局变量的情况，把目标函数和约束分为N个部分（这里的划分并不是对参数空间进行划分，而是类似于并行思想的那种把参数分成若干份，因此参数维度不变）：
在这里插入图片描述
$\in R$ 。 $f_i:R^n \rightarrow {+ \infty }$ 是凸的，是第i个子目标函数。当违反约束时(这里我认为就是在解题过程中不断试错的情况)，每一个子函数都可以自己处理元素（如线程和处理器）。这个问题在很多情况下都会出现（个人理解就是局部内进行解算，通过协作去关联到整体）。这样可以重写成：
在这里插入图片描述
（个人理解：这里是说，我把目标问题分成了这么多份，但是我最终目标是原问题的解，那么问题来了，子问题的解和原问题的解有什么关系？肯定是一致性了，在数字上表示是不是就是相等了呢？而且这只是一个约束条件，约束条件在计算过程中就是尽力去满足这个约束，找到可以接受的解。应该就是这样理解了。）

问题（7.1）的ADMM可以直接从增广的拉格朗日方程导出：
在这里插入图片描述
或者简单地作为变量 $(x_1, ....,x-n) \in R^{nN}$ 和约束集约束优化问题（5.1）的特例

生成ADMM算法如下：

（此处疑问，z的迭代是怎么的出来的。目前理解是，z和x在式子上是相等的，因此会是x加上一个类似于导数或者步长的东西）

算法进一步简化，可以用平均数来表示：
在这里插入图片描述

把上面z-迭代代入y-迭代，发现对偶变量$\bar{y}^{k+1} = 0 $,对偶变量在第一次迭代后平均值为0.我们使用 $z^k = \bar{x} ^ k$ ,ADMM算法可以写成(在平均数的情况下才这样写)：

对偶变量分别更新，并趋于一致（有x的平均数，这点是肯定的）。而二次正则化有助于将变量拉向其平均值(就是防止过拟合的那种嘛)，同时仍试图最小化每个局部 $f_i$ （记得似乎二次项有防止图像趋近于平行x轴功效，待考证）

我们可以将一致ADMM解释为一种解决目标和约束分布在多个处理器上的问题的方法。每个处理器只需处理自己的目标和约束项，外加一个二次项，该二次项在每次迭代中都会更新。二次项（或者更准确地说，二次项的线性部分）的更新方式使得变量收敛到一个公共值，这是整个问题的解。（我觉得就是解决：如何把问题分解，分解了才能并行，还得想办法让子问题的解一致（我觉得功劳还是x的平均数，因为每次参数迭代都和平均值有关，而平均值是整个系统的或者说全局的变量，这样算出来不一致才怪。不过在并行实行的时候，如何计算平均值、分发平均值可能是极其麻烦的）。而且上一次笔记提到了，ADMM扩展性极好，即使不精确的执行也能收敛到一个满意的结果，所以，分解搞很有道理啊）。这里突然想到了小批量随机梯度，不过好像没有随机梯度更方便。

对于一直ADMM，原始残差和对偶残差为：

在这里插入图片描述
他们的平方范数：

前项是N倍残差，文章说这是一致性的度量

当一致性原始问题是拟合问题时，x更新步骤具有直观的统计解释.这里其实需要说一下 $\bar x$ 的合理性，其实在概率论与数理统计中有这种说法的，就是用前面出现的平均概率代替估计。这里 $r^k$ 残差也用到了。像第三章我们 $p^*$ 代表最优，然后得到残差。这里就是用 $\bar x$ 估计最优，有道理的。 ${y_i}^{k}$ 没有一致性（这里难以理解，以后再说）。还要注意，如第3.4节所述，在增广项中使用不同形式的惩罚将导致该先验分布的相应变化；例如，使用矩阵惩罚p而不是标量惩罚 $\rho$ 将意味着高斯先验分布具有协方差p而不是 $\rho I$ (这说的啥，I是什么东西)

7.1.1 带正则化的全局变量一致性

在全局变量一致性问题的简单变化中，简单约束或正则化的目标项g由中心处理器处理：
在这里插入图片描述
ADMM算法为：
（这里（7.4）的迭代按理来说少了一个 ${y_i}^{kT}x_i$ ，从某种说法讲，因为缺少项与z迭代是线性想加，求最优解的时候不考虑也不影响，但是话说回来，（7.3）为什么有z的迭代项，匪夷所思。倘若我大胆推测一下，这里作者漏写了，没毛病，下文有证据）

用上 $\bar x$ 。于是：
在这里插入图片描述
（这里出现了问题，与（7.4）式比较这里很明显会出现 $\bar y^{k+1 }\bar y^{k+1 }$ ，而（7.4）很明显没有这项，凑也凑不出来。补充：情况应该是这样，作者漏写了一个 ${y_i}^{kT},这样除了缺少一项$ $\bar y^{k+1 }\bar y^{k+1 }$ ，其他都没问题了，在随堂笔记（2）中，缩放形式(3.5)式前一个式子那里，所抛弃的项是一样的，理由我觉得也一样，所以化形成立）
这里解释了一下，说在g非零的情况下， $\bar y^k$ 通常不会等于0.因此无法不能在z-迭代中把 $y_i$ 去掉。（为什么呢？给跪了）。举个例子，对于 $\lambda |z|_1$ ,当 $\lambda>0$ 的时候z-迭代是是一个软阀值（软阀值介绍：https://blog.csdn.net/sq1378392676/article/details/78731035）：
在这里插入图片描述
（不懂，这里太科幻了）
又举了一个例子(这个与上面同理):
针对这个问题的ADMM的缩放形式也有一个吸引人的形式，为了方便我们在这里记录：

这里推了一下，没有问题，就是有一个线性项丢弃了，也是缩放的意义所在。
很多情况下，缩放形式比未缩放形式用起来更简单、也更容易。