【ML】线性回归——Lasso回归的一点总结

1.Lasso回归模型

原模型:

其中z是高斯分布噪声,z~N(0,sigma ^ 2)

套索目标函数:

 


2.Lasso回归的效果(目的)

缩小(收缩)系数,并且将其中一些置零,从而获得岭回归和最优子集选择法的共同优点

参考:lasso.pdf

 

 


3.Lasso回归精度分析

其中p是自变量个数,n是样本数目,s是原模型中系数不为零的beta个数,sigma z是原模型中噪声z的标准差,gamma是自变量矩阵X所满足的限制特征值属性参数(restricted-eigenvalue property(REP))

 

可以看出,回归系数的二范数偏差数量级为O(   )

说明套索回归的模型系数的β与原模型的系数稀疏程度S,样本个数N,样本的噪声方差西格玛相关。

  • 原模型中非零系数越多,误差越大

  • 样本数越多,误差越小

  • 样本数据噪声方差越大(越分散),误差越大

 

参考:稀疏回归.pdf - 2.4套索的理论分析

 


4.Lasso回归的几何意义

以直观的图形为例,LASSO回归的惩罚函数映射到二维空间的话,就会形成“角”,一旦“角”与抛物面相交,就会导致beta1为0(如上图所示),这样beta1对应的变量就是一个可抛弃的变量。

但是,从图中可以看出套索回归的结果是模型参数的β的有偏估计(因为图中红色点-最小二乘是无偏估计)

参考:https //blog.csdn.net/huahaitingyuan/article/details/40979013

http://freemind.pluskid.org/machine-learning/sparsity-and-some-basics-of-l1-regularization/#ed61992b37932e208ae114be75e42a3e6dc34cb3

 

 

5.Lasso的求解方法

  • 坐标下降法(坐标下降法)

一种迭代求解方法,需要自己设置正则项参数

每一轮时间复杂度:O(n * p)n是样本数p是自变量个数(但是不知道要计算多少轮才收敛)

参考:https//www.cnblogs.com/pinard/p/6018889.html

 

  • 最小角回归(LARS)

一种求解套索问题的方法,不需要正则项参数

时间复杂度:O(p ^ 3)(对于n << p的情况)

参考:https//stats.stackexchange.com/questions/76518/what-is-the-time-complexity-of-lasso-regression

 

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值