4. Lasso回归和岭(Ridge)回归
- pdf版本下载地址:https://pan.baidu.com/s/1i5JtT9j
- html版本下载地址:https://pan.baidu.com/s/1kV0YVqv
- LASSO 由1996年 Robert Tibshirani 首次提出,全称 Least absolute shrinkage and selection operator
- 岭回归,又称脊回归、吉洪诺夫正则化(Tikhonov regularization),是对不适定问题(ill-posed problem)进行回归分析时最经常使用的一种正则化方法。
前面模型选择的时候已经说过,模型参数越多复杂度越高,譬如说现在的数据特征 x 的维数非常高,即使我用线性回归依然有很多的参数需要训练,这会造成一定程度上的过拟合。并且最终得到的模型的可解释性也是不高的。这个时候可以考虑引入lasso回归。
而岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,它放弃了最小二乘法的无偏性,以损失部分信息、降低精度为代价获得更加靠谱的回归系数。做人留一点底线,回归也能太极端嘛。
1 基本形式
Lasso回归的特点是可以在拟合训练数据的同时进行变量选择(Variable Selection)。那么它是通过什么机制选择的呢?答案就是:正则化(Regularization)!或者可以简单的把这个东西叫做惩罚项。
简单回顾一下线性回归的损失函数:
L(w)=1N∑i=1N(yi−f(xi))2=1N||y−Xw||2
可以求得解析解为: w∗=(XTX)−1XTy那么当上面的 X 输入空间维数很大的时候,可能会存在过拟合的问题。所以在这里我们引入正则项,也就是对
w 做一些限制。- 所以我们的优化问题从原始的