Proximal Algorithm 入门

最新推荐文章于 2024-07-23 17:43:55 发布

luoleicn

最新推荐文章于 2024-07-23 17:43:55 发布

阅读量2.2w

点赞数 27

文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luoleicn/article/details/52676378

版权

本文介绍了Proximal Algorithm的原理和应用场景，特别是其在处理L1正则化问题时的优势。通过对比L1和L2正则化，解释了L1正则化如何产生稀疏解。接着，讨论了Proximal Algorithm为何优于次梯度方法，并展示了其与SGD和Trust Region方法的关系。文章还提及了Proximal Algorithm在加速和ADMM中的应用。

摘要由CSDN通过智能技术生成

Proximal Algorithm 入门

这里作为我的博客备份，因为markdown解析各家标准并不能做到完全一致，特别是针对一些数学公式，如有排版问题，请访问原文Proximal Algorithm 入门获得更好的排版体验

正则化是机器学习方法实践中用于避免overfitting的主要方法，给优化目标加上基于L1、L2的正则项是常用的正则化方法。之前自己在实现一些机器学习方法时一直是使用L2的方法，因为L2正则项有连续可微的性质，在求导时特别方便，而基于L1的正则项（lasso）并不是处处连续的，因此在优化时有一定的难度。

虽然L1解起来有一定的难度，但是它的好处也比较明显，L1能够产生稀疏解（sparsity），而通常稀疏解的泛化能力会比较好，之前也听说过Proximal Algorithm是求解L1的很好的方法，粗看了一次也没能搞懂，后面就偷懒一直没有去学习这个方法，前段时间有机会参加CCF-ADL70的学习班，听了James Kwok的报告，讲的非常清楚，收获颇丰，Proximal Algorithm方法也在报告的内容之中，查阅一些文献总结一些粗浅认识，成了此文。

为什么L1能够产生稀疏解

为了追求更好的模型效果，往往使用更复杂的模型，模型的维度都是非常大的，非常容易造成过拟合（overfitting）的现象，实践中发现使用L1可以产生稀疏解，而稀疏解的模型不容易过拟合，泛化能力更好。

那么为什么使用L1就可以产生稀疏的解，而使用L2就不会呢，可以看下面一个小例子：

$min_{z \in R\quad}{L = \lambda|z| + \frac{\gamma}{2} {(z - x)}^2}$

当\(z>0\)时有：

$\frac{\partial L}{\partial z} = \lambda + \gamma(z - x) = 0$

$z = x - \frac{\lambda}{\gamma} \quad\quad (z > 0)$

当\(z<0\)时有：

$\frac{\partial L}{\partial z} = -\lambda + \gamma(z - x)$

z=x+λγ<

最低0.47元/天解锁文章

关注

27
点赞
踩
86

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。