前言:相比于最小二乘回归好在哪
当自变量间存在多重共线性时,最小二乘回归系数估计的方差就会很大或者不存在,从而导致估计值不稳定。
为了防止过拟合,保证模型的扩展性,利用拉格朗日法加入λ保证方程有解,采用lasso、Ridge and Elastic-Net Regression方法。
一、Ridge Regression(脊回归):
L2范数几何上就是以原点为中心的圆形(两个解释变量),不那么容易导致系数为零。目标为:拟合+解决共线性。
(曲线是光滑的,虽然有为0的系数,但不是常态,因为λ非常难找)
ridge也称压缩方法
1.为了处理共线性的问题(协变量里有信息冗余,这样的话会扭曲真实的解释性,会误认为对Y影响会很大)。
2.原理(思想) 当存在共线性时,原来的系数矩阵会不可逆(因为不是满秩)所以加上一个λI,使其变得可逆。加上一个使之可逆的λI等价于:在有限范围内海选(局部优化),原来的最小二乘是全局优化。
3.ridge是有偏的,最小二乘是无偏的,但是为什么仍然选择ridge呢:因为我们有两大目标,一是估计β,一是处理共线性,要做trade off。
4.为什么叫压缩方法呢:因为假设X间相互独立,则由压缩比可知,越重要的变量,d越大,压缩越少,以显示的相对重要。
5.ridge 的局限性:只能相对调比重,不能把不重要的去掉。
二、Lasso Regression:
L1范数几何上就是以原点为中心的菱形(两个解释变量),由于很容易取到四个顶点,而导致系数为零,故经常用于变量选择。
目标为:拟合+变量选择
(折线)
(lasso与降维的区别:同为丢掉变量,lasso是直接丢,但降维是旋转(换个角度)之后再丢)
三、Elastic-Net Regression(弹性网):
相当于是前两种方法的加权平均。 目标:拟合+解决共线性+变量选择
两种加权方式:指数类型 系数类型 为什么最后选择了系数类型的加权?
答:肉眼虽然看不出来区别,但是指数类型的是光滑的,四个角都是钝角;而系数的是两个钝角,两个尖角。
由此我们可以总结出需要满足两点才能导致系数为0:
1.有夹角
2.凸函数
注:
1.最小二乘是无偏的,以上方法都是有偏的。
2.当样本数远远小于变量维数时,往往lasso很有用(加上sparsity就很好用);样本数远远大于变量维数时,可以用ridge;
(以上内容均为本人课堂笔记整理,如有错误还请批评指正)