在学习统计学专业课《回归分析技术》时学过岭回归,学机器学习时也涉及到岭回归,但是两个角度的思想方法略有不同,但最后的结果却是殊途同归的,最近准备统计学考研的复试时,对比了两种思路,觉得很有意思,把一些思考过程分享出来。
一、统计学角度之下的岭回归
1.1 岭回归要解决什么问题?
岭回归的产生是为了弥补最小二乘估计的不足之处:
(1)最小二乘估计要求数据满足基本假定条件(变量之间不相关,残差项零均值、等方差、不序列相关),但实际中,能满足这个要求的数据是很少的,尤其是经济数据,变量之间有很强相关性
(2)当数据出现多重共线性,或样本量n小于变量数k时,参数估计精度会很低。
先来回顾一下最小二乘估计的一些原理:
记样本矩阵为X,用最小二乘估计求出来的回归系数估计为: β ^ = ( X T X ) − 1 X T y \hat\beta=(X^{T}X)^{-1}X^{T}y β^=(XTX)−1XTy
当数据出现多重共线性,或样本量n小于变量数k时, X T X X^{T}X XTX不满秩, ∣ X T X ∣ = 0 |X^{T}X|=0 ∣XTX∣=0, X T X X^{T}X XTX不能求逆。所以最小二乘估计 β ^ \hat\beta β^这时就求不出来。
为了解决最小二乘估计的这个硬伤,岭估计的解决思路是,作出一些改进,让矩阵 X T X X^{T}X XTX可以求逆。由于矩阵 X T X X^{T}X XTX是一个半正定矩阵,半正定矩阵加一个对角矩阵 k I n kI_{n} kIn之后, X T X + k I n X^{T}X+kI_{n} XTX+kIn就一定可以求逆。之后就和最小二乘求解最优解的思路一样了,由此得出的岭估计 β ^ ( k ) \hat\beta(k) β^(k)表达式如下: β ^ ( k ) = ( X T X + k I n ) − 1 X T y \hat\beta(k)=(X^{T}X+kI_{n})^{-1}X^{T}y β^(k)=(XTX+kIn)−1XTy
k k k就是岭参数,当k=0时, β ^ ( 0 ) \hat\beta(0) β^(0)就是无偏估计。随着k增大, β ^ ( k ) \hat\beta(k) β^(k)逐渐变小,当k趋于无穷时, β ^ ( k ) \hat\beta(k) β^(k)逐渐趋于0。
1.2 岭回归估计的性质
-
β ^ ( k ) \hat\beta(k) β^(k)是回归参数 β \beta β的有偏估计
最小二乘估计 β ^ \hat\beta β^是无偏估计,但当样本存在多重共线性,或者是样本量小于变量个数的时候,最小二乘估计 β ^ \hat\beta β^<