[机器学习]Lasso,L1范数,及其鲁棒性

前言:本文包括以下几个方面,
1. 介绍Lasso,从最初提出Lasso的论文出发,注重动机;
2. L1和L2范数的比较,注重L1的稀疏性及鲁棒性;
3. 从误差建模的角度理解L1范数

1. lasso

最早提出Lasso的文章,文献[1],已被引用n多次。

注:对于不晓得怎么翻译的英文,直接搬来。

  1. 文献[1]的动机:

在监督学习中,ordinary least squares(OLS) estimates 最小化所有数据的平方残差(即只是让经验误差最小化),存在2个问题:

1是预测误差(prediction accuracy):OLS estimates总是偏差小,方差大;

2是可解释性(interpretation):我们希望选出一些有代表性的子集就ok了。

【Lasso还有个缺点,ref8:当p>>n时,(如 医学样本,基因和样本数目),Lasso却最多只能选择n个特征】

为了解决上面2个问题,2种技术应运而生:

1是subset selection:其可解释性强,但预测精度可能会很差;

2是岭回归(ridge regression):其比较稳定(毕竟是添加了正则化项,把经验风险升级为结构风险),

                                            但可解释性差(只是让所有coefficients都很小,没让任何coefficients等于0)。

看来这2种技术对于2大问题总是顾此失彼,Lasso就被提出啦!其英文全称是’least absolute shrinkage and selection operator’

lasso的目的是:shrink some coefficients and sets others to 0,

                       保留subset selection可解释性强的优点 和 ridge regression稳定性强的优点。

2)为什么Lasso相比ridge regression稀疏?

直观的理解[1]

在这里插入图片描述

(plus a constant).

(a)图:椭圆形是函数的图像,lasso的约束图像是菱形。

最优解是第一次椭圆线触碰到菱形的点。最优解容易出现在角落,如图所示,触碰点坐标是(0,c),等同于一个coefficient=0;

(b)图:岭回归的约束图像是圆形。

因为圆形没有角落,所以椭圆线与圆形的第一次触碰很难是在坐标为(0,c)的点,也就不存在稀疏了。

2. L1,L2范数误差的增长速度(ref2,ref3)![在这里插入图片描述]

在这里插入图片描述

             图1

L1范数误差的线性增长速度使其对大噪音不敏感,从而对不良作用形成一种抑制作用。

而L2范数误差的二次增长速度 显著放大了 大噪声 负面作用。

3. 从误差建模的角度理解

1)孟德宇老师从误差建模的角度分析L1如何比L2鲁棒。(ref3)

1:看图1,由于L1范数的线性增长速度使其对大噪音不敏感,从而对其不良影响起到一种隐式抑制,因此相对鲁棒。

2:从贝叶斯的角度,看图2,L1范数误差对应的拉普拉斯分布比L2范数误差对应的高斯分布具有更为显著的“厚尾”状态,从而其更适合对大幅度噪音的似然描述,

从而导致对大噪音或异常点数据更加稳健的计算效果。

在这里插入图片描述

2)1是从误差建模的角度,涉及这么个问题:从贝叶斯角度,为什么L1对应拉普拉斯,L2对应高斯分布呢?

这个问题我纠结了好久,因为RCC论文涉及此分析。终于从知乎https://www.zhihu.com/question/23536142上找到解析:

1是参考博文 ref 6: ( 文章含具体推导,分为L1、L2、Elastic Net(L2及L1+L2) )

抛给大家一个结论:从贝叶斯的角度来看,正则化等价于对模型参数引入 先验分布 。

对于回归问题,对w引入先验分布(高斯分布/拉普拉斯分布) -> 对样本空间 关于w 求贝叶斯最大后验估计(MAP) -> 得到了关于w的岭回归/LASSO 

因此, 对参数引入 高斯先验/拉普拉斯先验 等价于 L2正则化/L1正则化

2是参考论文 ref 7: ( ref6的进阶 )

 除了高斯先验、拉普拉斯先验,还讲了其他先验。   

4. ref4

L0范数很难优化求解(NP难问题),L1范数是L0范数的最优凸近似,比L0范数容易优化求解。

5. ref5

一篇极好的博文,全面分析了各种范数(L1,L2,核范数,鲁棒PCA)

参考:

[1]《Regression shrinkage and selection via the lasso》Robert Tibshirani

[2] 《Improve robustness of sparse PCA by L1-norm maximization》 Meng Deyu et.al

[3] 《误差建模原理》孟德宇 人工智能通讯

[4] 《convex optimization》S.Boyd (书)

[5] http://blog.csdn.net/lj695242104/article/details/38801025 (csdn博客,总结的很好)

[6] http://charleshm.github.io/2016/03/Regularized-Regression/ (Github博客)
[7] 《Lazy Sparse Stochastic Gradient Descent for Regularized Mutlinomial Logistic Regression》
[8] 《Regularization and variable selection via the Elastic Net》ppt Hui.Zou
————————————————
版权声明:本文为CSDN博主「Lucky和小白」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/zhouxinxin0202/article/details/78606688

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值