Lasso,Ridge and Elastic-Net Regression

本文介绍了Ridge、Lasso和Elastic-Net三种回归方法,强调它们在处理共线性问题和变量选择上的优势。Ridge回归通过L2范数避免系数为零,适合处理共线性;Lasso回归利用L1范数实现变量选择,能剔除不重要变量;Elastic-Net结合两者,适用于同时解决共线性和选择变量的场景。三种方法在不同样本量与变量维数情况下有各自适用性。
摘要由CSDN通过智能技术生成

前言:相比于最小二乘回归好在哪

当自变量间存在多重共线性时,最小二乘回归系数估计的方差就会很大或者不存在,从而导致估计值不稳定。

为了防止过拟合,保证模型的扩展性,利用拉格朗日法加入λ保证方程有解,采用lasso、Ridge and Elastic-Net Regression方法。


一、Ridge Regression(脊回归):

L2范数几何上就是以原点为中心的圆形(两个解释变量),不那么容易导致系数为零。目标为:拟合+解决共线性。

 

(曲线是光滑的,虽然有为0的系数,但不是常态,因为λ非常难找)

ridge也称压缩方法

1.为了处理共线性的问题(协变量里有信息冗余,这样的话会扭曲真实的解释性,会误认为对Y影响会很大)。

2.原理(思想) 当存在共线性时,原来的系数矩阵会不可逆(因为不是满秩)所以加上一个λI,使其变得可逆。加上一个使之可逆的λI等价于:在有限范围内海选(局部优化),原来的最小二乘是全局优化。

3.ridge是有偏的,最小二乘是无偏的,但是为什么仍然选择ridge呢:因为我们有两大目标,一是估计β,一是处理共线性,要做trade off。

4.为什么叫压缩方法呢:因为假设X间相互独立,则由压缩比可知,越重要的变量,d越大,压缩越少,以显示的相对重要。

5.ridge 的局限性:只能相对调比重,不能把不重要的去掉。

 

 

二、Lasso Regression:

L1范数几何上就是以原点为中心的菱形(两个解释变量),由于很容易取到四个顶点,而导致系数为零,故经常用于变量选择。

目标为:拟合+变量选择 

(折线)

 

(lasso与降维的区别:同为丢掉变量,lasso是直接丢,但降维是旋转(换个角度)之后再丢)

 

 

三、Elastic-Net Regression(弹性网):

相当于是前两种方法的加权平均。  目标:拟合+解决共线性+变量选择

两种加权方式:指数类型 系数类型 为什么最后选择了系数类型的加权?

答:肉眼虽然看不出来区别,但是指数类型的是光滑的,四个角都是钝角;而系数的是两个钝角,两个尖角。

由此我们可以总结出需要满足两点才能导致系数为0:

1.有夹角

2.凸函数

 

 

注:

1.最小二乘是无偏的,以上方法都是有偏的。

2.当样本数远远小于变量维数时,往往lasso很有用(加上sparsity就很好用);样本数远远大于变量维数时,可以用ridge;

(以上内容均为本人课堂笔记整理,如有错误还请批评指正)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值