岭回归(Ridge Regression)
岭回归是一种改良的最小二乘估计法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于普通的最小二乘法OLS。本质是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子。
直接套用线性回归有可能会产生过拟合,如果加上L2正则化项,就是岭回归。
这样会解决线性回归中的共线性一部分问题,也会有更好的鲁棒性。
当线性回归模型中存在多个相关变量时,它们的系数确定性变差并呈现高方差,比如说,在一个变量上的一个很大的正系数可能被在其他相关变量上的类似大小的负系数抵消。
场景分析
岭回归是对最小二乘回归的一种补充,它损失了无偏性,来换取高的数值稳定性,从而得到较高的计算精度,增加正则方式,会使整个矩阵为奇异的风险大降低。
当特征数远大于样本数量时,不可以用最小二乘法但是可以用岭回归。
岭回归与普通的多元线性回归相比,更加平滑,连续。从多变量回归的变量选择来说,普通的多元线性回归要做的是变量的剔除和筛选,而岭回归是一种shrinkage(收缩)的方法。在做普通线性回归时候,如果某个变量t检验不显著,我们通常会将它剔除再做回归,如此往复,最终筛选留下得到一个我们满意回归方程,但是在做岭回归的时候,