岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性(有偏和无偏 https://www.zhihu.com/question/22983179),以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
当自变量间存在多重共线性时,回归系数估计的方差就很大,估计值就很不稳定,此时模型或数据的微小变化有可能造成系数估计的较大变化,对预测值产生较大影响(举例 http://wenku.baidu.com/link?url=CqSE-wd0qU_sYc3Dopw2JXNSVKyL3c–_qhAVWgvDhC-OpmPrKkOnzVfq-LOEUF8gmI6l13onwSS_YrAGYYpwfc5VlqJjoeD9g5PstQmNby)
岭回归和普通线性回归区别:
1)最优化问题
岭回归是在最优化问题中加了beta的平方和
多元线性回归的最小二乘回归不仅仅可以看成是对损失函数的最小化,得出的结果也是Y在X的线性空间上的投影
2)普通线性回归是变量的剔除和筛选,而岭回归是将变量的系数beta趋向零,使其在回归方程中的影响变小,相较于线性回归,岭回归的变化更加平滑
3)从计算角度来看,线性回归的最小二乘估计是:
b=(X^T X)^(-1) X^T Y
当存在很强的多重共线性时X^T X不可逆或接近不可逆
而岭回归是在自变量信息矩阵的主对角线元素上加上一个非负因子
b(γ)=(X^T X+γI)^(-1) X^T Y
此时虽然对系数的估计是有偏的但是提高了稳定性
参考:
https://www.zhihu.com/question/28221429
关于岭回归
最新推荐文章于 2024-08-14 18:06:05 发布