性线回归的变量选择——传统方法 VS Lasso

前言:

1.线性回归需满足以下四个条件——线性、独立、正态、齐性。
(1)自变量与因变量之间存在线性关系:这可以通过绘图观察。如果因变量Yi 与某个自变量X i 之间呈现出曲线趋势,可尝试通过变量变换予以修正,常用的变量变换方法有对数变换、倒数变换、平方根变换、平方根反正弦变换等。
(2)各观测间相互独立:任意两个观测残差的协方差为0 ,也就是要求自变量间不存在多重共线性问题。如果存在多重共线可能就需要用到脊回归(Ridge)和弹性网(Elastic Net)
(3)残差e 服从正态分布N(0,σ2) :其方差σ2 = var (ei) 反映了回归模型的精度, σ 越小,用所得到回归模型预测y的精确度愈高。
(4) e 的大小不随所有变量取值水平的改变而改变,即方差齐性。
 

2.介绍模型常用的四个性能指标——R平方、AIC、BIC、Cp

(1)R平方:它是预测变量能解释结果变量变异的百分比例,范围是【0,1】。R平方越高,模型越好。

(2)AIC:基本思想是对模型中包含额外变量的行为进行惩罚。每当增加一个新变量时,它将增加一个惩罚值,从而达到控制额外预测变量的结果。AIC越低,模型越好。

(3)BIC:是AIC的一种变体,利用了贝叶斯原理,当模型中增加新的变量时,它将受到比AIC更大的惩罚。自然,BIC越低,模型越好。

(4)Cp:也是AIC的一种变体,Cp越低,模型越好。


一、传统变量选择的四种方法:

(1)全子集回归:即考虑所有变量的不同组合。可想而知,变量一多,计算量very huge。

(2)向前选择法:从第一个最优的变量开始(个人认为就是最能影响被解释变量的那个变量),逐个选入,不断进行新模型的检验,直到模型精度不再显著增加。

(3)向后选择法:先将变量全部选入,逐个丢掉,不断进行新模型的检验,直到模型精度不再显著增加。

(4)both:是(2)和(3)的结合

二、非传统:Lasso回归

的条件下(KKT条件),最小化残差平方和

利用拉格朗日法求解(可以采用交叉验证法求λ),即

可以使某些变量的系数变为0,从而达到变量选择的目的。

带了约束条件就是到原点的距离比最小二乘要小,就是压缩的。

三、二者比较:

传统方法要么计算量太大,要么可能无法获得绝对最佳的组合。
LASSO提供了正则化和有效的子集选择,即使您的参数多于观察值,也可以使用。

(以上内容均为本人课堂笔记整理,如有错误还请批评指正)

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值