ADMM 大规模变量优化

最新推荐文章于 2023-01-26 00:41:10 发布

angie2011

最新推荐文章于 2023-01-26 00:41:10 发布

阅读量2k

点赞数 2

文章标签：大数据 matlab 人工智能

原文链接：http://www.cnblogs.com/6530265oule/p/9132224.html

版权

本文介绍了ADMM（交替方向乘子法）算法在大规模变量优化中的作用，探讨了它作为优化思想的整合，如何克服传统算法如对偶上升法的局限性，尤其是在大数据背景下解决统计学习中的问题。ADMM通过交替优化保持了可分解性和优秀的收敛性，适用于处理凸优化问题，尤其是-norm问题。此外，文章还讨论了ADMM的收敛性、停止准则以及在二次目标优化、可分目标和约束、光滑目标函数项等场景的应用。

摘要由CSDN通过智能技术生成

《Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers》

业界一直在谈论大数据，对于统计而言，大数据其实意味着要不是样本量增加，要不就是维度的增加，亦或者两者同时增加，并且维度与样本量的增长速度呈线性或者指数型增长。在稀疏性的假设条件下，再加上一些正则性方法，统计学家可以证明各种加penalty的模型所给出的参数估计具有良好的统计性质，收敛速度也有保证，同时还会给出一些比较好的迭代算法，但是，他们并没有考虑真实环境下的所消耗的计算时间。虽然统计学家也希望尽量寻求迭代数目比较少的算法（比如one-step估计），但是面对真实的Gb级别以上的数据，很多时候我们还是无法直接用这些算法，原因是一般的硬件都无法支撑直接对所有数据进行运算的要求。如果想减少抽样误差，不想抽样，又想提高估计的精度，那么还是需要寻求其他思路，结合已有的模型思想来解决这些问题。在目前条件下，并行化、分布式计算是一种比较好的解决思路，利用多核和多机器的优势，这些好算法便可以大规模应用，处理大数据优势便体现出来了。对于统计而言，数据量越大当然信息越可能充分（假设冗余成分不是特别多），因为大样本性质本身就希望样本越多越好嘛。

本文是基于Stephen Boyd 2011年的文章《Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers》进行的翻译和总结。Boyd也给出了利用matlab的CVX包实现的多种优化问题的matlab示例。

1. 优化的一些基本算法思想

ADMM算法并不是一个很新的算法，他只是整合许多不少经典优化思路，然后结合现代统计学习所遇到的问题，提出了一个比较一般的比较好实施的分布式计算框架。因此必须先要了解一些基本算法思想。

1.1 Dual Ascent

对于凸函数的优化问题，对偶上升法核心思想就是引入一个对偶变量，然后利用交替优化的思路，使得两者同时达到optimal。一个凸函数的对偶函数其实就是原凸函数的一个下界，因此可以证明一个较好的性质：在强对偶性假设下，即最小化原凸函数（primal）等价于最大化对偶函数（dual），两者会同时达到optimal。这种转化可以将原来很多的参数约束条件变得少了很多，以利于做优化。具体表述如下：

在强对偶性的假设下，primal和dual问题同时达到最优。

因此，若对偶函数可导，便可以利用梯度上升法，交替更新参数，使得同时收敛到最优。迭代如下：

当不可微的时候也可以将其转化下，成为一个所谓的subgradient的方法，虽然看起来不错，简单证明下即可知道和同时可达到optimal，但是上述条件要求很苛刻：要求严格凸，并且要求选择有比较合适。一般应用中都不会满足（比如是一个非零的仿射函数），因此dual ascent不会直接应用。