Proximal Algorithm 入门

本文介绍了Proximal Algorithm的原理和应用场景,特别是其在处理L1正则化问题时的优势。通过对比L1和L2正则化,解释了L1正则化如何产生稀疏解。接着,讨论了Proximal Algorithm为何优于次梯度方法,并展示了其与SGD和Trust Region方法的关系。文章还提及了Proximal Algorithm在加速和ADMM中的应用。
摘要由CSDN通过智能技术生成

Proximal Algorithm 入门

这里作为我的博客备份,因为markdown解析各家标准并不能做到完全一致,特别是针对一些数学公式,如有排版问题,请访问原文Proximal Algorithm 入门 获得更好的排版体验

正则化是机器学习方法实践中用于避免overfitting的主要方法,给优化目标加上基于L1、L2的正则项是常用的正则化方法。之前自己在实现一些机器学习方法时一直是使用L2的方法,因为L2正则项有连续可微的性质,在求导时特别方便,而基于L1的正则项(lasso)并不是处处连续的,因此在优化时有一定的难度。

虽然L1解起来有一定的难度,但是它的好处也比较明显,L1能够产生稀疏解(sparsity),而通常稀疏解的泛化能力会比较好,之前也听说过Proximal Algorithm是求解L1的很好的方法,粗看了一次也没能搞懂,后面就偷懒一直没有去学习这个方法,前段时间有机会参加CCF-ADL70的学习班,听了James Kwok的报告,讲的非常清楚,收获颇丰,Proximal Algorithm方法也在报告的内容之中,查阅一些文献总结一些粗浅认识,成了此文。

为什么L1能够产生稀疏解

为了追求更好的模型效果,往往使用更复杂的模型,模型的维度都是非常大的,非常容易造成过拟合(overfitting)的现象,实践中发现使用L1可以产生稀疏解,而稀疏解的模型不容易过拟合,泛化能力更好。

那么为什么使用L1就可以产生稀疏的解,而使用L2就不会呢,可以看下面一个小例子:

minzRL=λ|z|+γ2(zx)2

当\(z>0\)时有:

Lz=λ+γ(zx)=0

z=xλγ(z>0)

当\(z<0\)时有:

Lz=λ+γ(zx)

z=x+λγ<

  • 27
    点赞
  • 86
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值