针对出现多重共线性时,普通最小二乘法效果变坏的问题,霍尔(A.E.Hoerl)在1962年首先提出一种改进最小二乘估计的方法,叫岭估计(ridge estimate),后来 霍尔和肯纳德(Kennard)于1970年给予了详细讨论。
1. 岭回归实施的基本原理
岭回归(ridge regression,RR)提出的想法是很自然的。当自变量间存在多重共线性,ïX’Xï≈0时,我们设想给X’X加上一个正常数矩阵kI(k﹥0),那么X’X+kI接近奇异的程度就会比X’X接近奇异的程度小得多。考虑到变量的量纲问题,先将数据标准化,为了计算方便,标准化后的矩阵仍然用X
表示,定义为: (k)=(X’X+kI) -1 X’y,该矩阵即为的岭回归估计,其中,k称为岭参数。(k)作为的估计应比最小二乘估计稳定,当k=0时的岭回归估计(0)就是普通最小二乘估计。当岭参数k在(0,∞)内变化时,(k)是k的函数,在平面坐标系上把函数(k)描绘出来,画出的曲线称为岭迹。在实际应用中,可以根据岭迹曲线的变化形状来确定适当的k值和进行自变量的选择。