岭回归与Lasso回归模型
01 线性回归模型的短板
背景知识
根据线性回归模型的参数估计公式
可知,得到β的前提是矩阵
可逆,但在实际应用中,可能会出现自变量个数多于样本量或者自变量间存在多重共线性的情况,即
的行列式为0。此时将无法根据公式计算回归系数的估计值β。
02 岭回归与Lasso回归的系数求解
岭回归模型
为解决多元线性回归模型中可能存在的不可逆问题,统计学家提出了岭回归模型。该模型解决问题的思路就是在线性回归模型的目标函数之上添加
正则项(也称为惩罚项)。
在线性回归模型的目标函数之上添加
正则项,其中
为非负数
当
时,目标函数退化为线性回归模型的目标函数
当
时,通过缩减回归系数使
趋近于0
是
正则项平方的系数,用于平衡模型方差(回归系数的方差)和偏差
参数β的求解
具体方程推导就不列出了
模型方差与偏差的理解
image.png
随着λ的增大,模型方差会减小(因为矩阵(X^′X+λI)的行列式随λ的增加在增加,使得矩阵的逆就会逐渐减小,进而岭回归系数被“压缩”而变小)而偏差会增大。
03 系数求解的几何意义
几何意义
image.png
以二维空间为例(即自变量仅包含
和
两个),左半边的半椭圆体代表了
的部分,它是关于两个系数的二次函数;圆柱体代表了