【机器学习】非凸优化

非凸优化
http://arxiv.org/pdf/1712.07897.pdf



将学习问题表达为非凸优化问题的便利方式使算法设计者获得大量的建模能力


流行的解决方案是将非凸问题近似为凸优化,使用传统方法解决近似(凸)优化问题。
但是该方法可能造成损失,且对于大规模优化来说难度较高。


解决非凸优化的直接方法在多个领域中取得了巨大成功,现在仍是从业者常用的方法,因为这种方法通常由基于凸松弛的技术,流行的启发式方法包括投影梯度下降和交替最小化。




优化问题的一般形式可以表示为如下形式:


 x 为该优化问题的变量,f:R^p → R 为该问题的目标函数,C R^p 为优化问题的约束集。
当非凸优化应用到机器学习中时,目标函数可以允许算法设计者编码适当和期望的行为到机器学习模型中


一般的非凸优化和深度学习中的非凸优化,最大的区别就是深度学习不能直接最小化性能度量,而只能最小化损失函数以近似度量模型的性能。
对目标函数的约束条件允许约束模型编码行为或知识的能力


凸优化问题研究的目标函数是凸函数,对应的约束集为凸集


一个最优化问题通常会违反一个或多个凸优化条件,即它们通常会有非凸目标函数和非凸约束集等限制,因此这一类的最优化问题可以称为非凸优化问题。




非凸优化的动机:


目前很多应用都频繁地要求学习算法在极高维度的空间中进行运算
非凸优化并不像凸优化,我们并没有一套便利的工具来解决非凸问题,甚至已知有几个非凸问题是 NP-hard,我们总是只能近似地、显著地减小或增大目标函数的值。


一系列非凸问题使得最优化变得更加困难,有时候不仅求最优解是 NP-hard,连近似求最优都是 NP-hard




凸松弛方法:


面对非凸问题及其与 NP-hard 之间的关系,通常通过凸松弛来进行,以使非凸问题编码为凸问题。由于该方法允许使用类似的算法技术,所谓的凸松弛方法得到了广泛研究。


推荐系统和稀疏回归问题都应用了凸松弛方法。对于稀疏线性回归,凸松弛方法带来了流行的 LASSO 回归。


松弛公式对于原始问题来说不是好的解决方案。


如果该问题具备较好的结构,那么在仔细的松弛处理后,这些扭曲(distortion,松弛差距)就消失了,即凸松弛问题的解也适用于原始的非凸问题。
这种方法很流行也很成功,但是也有局限性,最显著的缺点就是可扩展性(scalability)
凸松弛优化问题在多项式时间中是可解决的,但在大规模问题中高效地应用这种方法通常比较困难。
非凸优化技术比基于松弛的方法快出一个数量级。




非凸优化方法:


机器学习和信号处理领域出现了一种新方法,不对非凸问题进行松弛处理而是直接解决
引起目标是直接优化非凸公式,该方法通常被称为非凸优化方法。


非凸优化方法常用的技术包括简单高效的基元(primitives),如投影梯度下降、交替最小化、期望最大化算法、随机优化及其变体。这些方法在实践中速度很快,且仍然是从业者最喜欢用的方法。


如果该问题具备较好的结构,那么不仅可以使用松弛方法,还可以使用非凸优化算法。
非凸方法不仅能避免 NP-hard,还可以提供可证明的最优解。


允许非凸方法避免 NP-hard 结果的问题结构与允许图松弛方法避免失真和较大松弛差距的结构类似!
如果问题具备较好的结构,则基于凸松弛的方法和非凸技术都可以成功,但是,非凸技术通常可以提供更具扩展性的解决方案。






非凸投影梯度下降:


约束集,尽管是非凸的,但它们具备额外的结构可使投影高效实施。
目标函数中帮助优化的结构特性
展示和分析适用于非凸问题的 PGD 算法的简单扩展。


解决非凸优化问题的广义投影梯度算法(gPGD)
PGD 利用了凸投影,而 gPGD 利用了非凸投影




EM 算法:


EM 算法是 Lloyd 算法用于 K-均值聚类的一个变体。
EM 算法在表面上遵循了我们在§5 中研究的交替最小化原则


实现 EM 算法需要两个过程,其一是构造与当前迭代(期望步骤或 E 步骤)对应的 Q 函数,另一个是用于最大化 Q 函数(最大化步骤或 M 步骤)以获得下一迭代。















评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值