[机器学习]Lasso，L1范数，及其鲁棒性

最新推荐文章于 2024-04-26 11:37:13 发布

再给一碗吧

最新推荐文章于 2024-04-26 11:37:13 发布

阅读量1.6k

点赞数

分类专栏：凸优化文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_35155934/article/details/121219702

版权

凸优化专栏收录该内容

7 篇文章 0 订阅

订阅专栏

前言：本文包括以下几个方面，
1. 介绍Lasso，从最初提出Lasso的论文出发，注重动机；
2. L1和L2范数的比较，注重L1的稀疏性及鲁棒性；
3. 从误差建模的角度理解L1范数

1. lasso

最早提出Lasso的文章，文献[1]，已被引用n多次。

注：对于不晓得怎么翻译的英文，直接搬来。

文献[1]的动机：

在监督学习中，ordinary least squares(OLS) estimates 最小化所有数据的平方残差（即只是让经验误差最小化），存在2个问题：

1是预测误差（prediction accuracy）：OLS estimates总是偏差小，方差大；

2是可解释性（interpretation）：我们希望选出一些有代表性的子集就ok了。

【Lasso还有个缺点，ref8：当p>>n时，（如医学样本，基因和样本数目)，Lasso却最多只能选择n个特征】

为了解决上面2个问题，2种技术应运而生：

1是subset selection：其可解释性强，但预测精度可能会很差；

2是岭回归(ridge regression)：其比较稳定（毕竟是添加了正则化项，把经验风险升级为结构风险），

                                            但可解释性差（只是让所有coefficients都很小，没让任何coefficients等于0）。

看来这2种技术对于2大问题总是顾此失彼，Lasso就被提出啦！其英文全称是’least absolute shrinkage and selection operator’

lasso的目的是：shrink some coefficients and sets others to 0，

                       保留subset selection可解释性强的优点 和 ridge regression稳定性强的优点。

2）为什么Lasso相比ridge regression稀疏？

直观的理解[1]

在这里插入图片描述

(plus a constant).

(a)图：椭圆形是函数的图像，lasso的约束图像是菱形。

最优解是第一次椭圆线触碰到菱形的点。最优解容易出现在角落，如图所示，触碰点坐标是(0,c)，等同于一个coefficient=0;

(b)图：岭回归的约束图像是圆形。

因为圆形没有角落，所以椭圆线与圆形的第一次触碰很难是在坐标为(0,c)的点，也就不存在稀疏了。

2. L1,L2范数误差的增长速度（ref2,ref3）![在这里插入图片描述]

在这里插入图片描述

             图1

L1范数误差的线性增长速度使其对大噪音不敏感，从而对不良作用形成一种抑制作用。

而L2范数误差的二次增长速度显著放大了大噪声负面作用。

3. 从误差建模的角度理解

1）孟德宇老师从误差建模的角度分析L1如何比L2鲁棒。(ref3)

1：看图1，由于L1范数的线性增长速度使其对大噪音不敏感，从而对其不良影响起到一种隐式抑制，因此相对鲁棒。

2：从贝叶斯的角度，看图2，L1范数误差对应的拉普拉斯分布比L2范数误差对应的高斯分布具有更为显著的“厚尾”状态，从而其更适合对大幅度噪音的似然描述，

从而导致对大噪音或异常点数据更加稳健的计算效果。

在这里插入图片描述

2）1是从误差建模的角度，涉及这么个问题：从贝叶斯角度，为什么L1对应拉普拉斯，L2对应高斯分布呢？

这个问题我纠结了好久，因为RCC论文涉及此分析。终于从知乎https://www.zhihu.com/question/23536142上找到解析：

1是参考博文 ref 6: （文章含具体推导，分为L1、L2、Elastic Net（L2及L1+L2））

抛给大家一个结论：从贝叶斯的角度来看，正则化等价于对模型参数引入 先验分布 。

对于回归问题，对w引入先验分布(高斯分布/拉普拉斯分布) -> 对样本空间 关于w 求贝叶斯最大后验估计（MAP） -> 得到了关于w的岭回归/LASSO 

因此， 对参数引入 高斯先验/拉普拉斯先验 等价于 L2正则化/L1正则化

2是参考论文 ref 7: ( ref6的进阶 )

 除了高斯先验、拉普拉斯先验，还讲了其他先验。

4. ref4

L0范数很难优化求解（NP难问题），L1范数是L0范数的最优凸近似，比L0范数容易优化求解。

5. ref5

一篇极好的博文，全面分析了各种范数（L1，L2，核范数，鲁棒PCA）

参考：

[1]《Regression shrinkage and selection via the lasso》Robert Tibshirani

[2] 《Improve robustness of sparse PCA by L1-norm maximization》 Meng Deyu et.al

[3] 《误差建模原理》孟德宇人工智能通讯

[4] 《convex optimization》S.Boyd (书)

[5] http://blog.csdn.net/lj695242104/article/details/38801025 (csdn博客，总结的很好)

[6] http://charleshm.github.io/2016/03/Regularized-Regression/ (Github博客)
[7] 《Lazy Sparse Stochastic Gradient Descent for Regularized Mutlinomial Logistic Regression》
[8] 《Regularization and variable selection via the Elastic Net》ppt Hui.Zou
————————————————
版权声明：本文为CSDN博主「Lucky和小白」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/zhouxinxin0202/article/details/78606688

再给一碗吧

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
[机器学习]Lasso，L1范数，及其鲁棒性

前言：本文包括以下几个方面，1. 介绍Lasso，从最初提出Lasso的论文出发，注重动机；2. L1和L2范数的比较，注重L1的稀疏性及鲁棒性；3. 从误差建模的角度理解L1范数1. lasso最早提出Lasso的文章，文献[1]，已被引用n多次。注：对于不晓得怎么翻译的英文，直接搬来。文献[1]的动机：在监督学习中，ordinary least squares(OLS) estimates 最小化所有数据的平方残差（即只是让经验误差最小化），存在2个问题：1是预测误差（predic
复制链接

扫一扫