多元线性回归模型
的最小二乘估计结果为
如果存在较强的共线性,即 中各列向量之间存在较强的相关性,会导致的从而引起对角线上的 值很大
并且不一样的样本也会导致参数估计值变化非常大。即参数估计量的方差也增大,对参数的估计会不准确。
因此,是否可以删除掉一些相关性较强的变量呢?如果p个变量之间具有较强的相关性,那么又应当删除哪几个是比较好的呢?
本文介绍两种方法能够判断如何对具有多重共线性的模型进行变量剔除。即岭回归和LASSO(注:LASSO是在岭回归的基础上发展的)
思想:
既然共线性会导致参数估计值变得非常大,那么给最小二乘的目标函数加上基础上加上一个对 的惩罚函数
最小化新的目标函数的时候便也需要同时考虑到 值的大小,