点击上方“道器”,轻松关注我们
现代大规模数据分析和机器学习应用程序严重依赖于计算效率高的算法。其中有2种主要算法:基于优化的算法和基于蒙特卡洛采样的算法。一般的看法是,采样必然比优化慢,并且仅在需要不确定性估计的情况下才需要采样。根据发表在PNAS上的一篇研究论文《Samplingcan be faster than optimization》显示,一般的看法通常是不正确的,因为存在自然类的非凸问题,对于这些问题,采样算法的计算复杂度与模型维度成线性比例关系,而优化算法的计算复杂度与模型维度成对数比例增长关系。
论文研究了混合建模和多稳定系统中出现的一类非凸目标函数,这些算法建立在两种通用的计算策略之上,这两种策略都源于数学优化和马尔科夫蒙特卡洛模型(MCMC)采样。以前对这些算法的研究大多是分开进行的,对最优化的研究侧重于估计和预测问题,对抽样的研究侧重于不确定性的估计,如形成可信区间和进行假设检验。近几年有朝着使用两种方法的方向发展的趋势,且更侧重于梯度和随机梯度的使用,而不是函数值或高阶导数,因为它们在单个算法步骤的计算复杂性和总体收敛速度之间进行了有效的折衷,事实证明的确是很有效的。
通过使用来自优化理论的工具为MCMC采样建立收敛速度,包括非渐近维数依赖性,结果显示采样的速度比优化的速度要慢,这与一般的观点一致。但是,这些结果是在凸函数中获得的。
论文的重点是研究非凸函数,我们发现有一类问题它们在有界区域之外是强烈凸的,但在其内部是非凸的。对于此类问题,抽样比优化更有效。
算法一:MALA(基于梯度的MCMC算法)
算法二:GD(基于梯度的优化算法)
最优化算法和蒙特卡罗抽样算法为近年来统计机器学习应用的快速发展提供了计算基础,然而,理论上对于这两种方法之间关系的解释是有限的,对于相对优势和劣势的解释也是有限的。此外,已有的研究成果主要集中在对数凸函数(优化)和对数凹函数(采样)的设定上。在这种情况下,局部属性决定全局属性,优化算法毫无疑问比采样算法更有效。机器学习和数据科学是结合计算机科学和统计学来解决推理问题,这些问题的规模和复杂性需要现代化的计算机基础设备。
批判思维 挑战权威 敢冒风险 独立体验http://daoqi.org.cn
(编辑:28号淘气包)