本博客记录《机器学习实战》(MachineLearningInAction)的学习过程,包括算法介绍和python实现。
岭回归
岭回归(Ridge Regression),是一种线性回归方法,在最小二乘法的基础上加入一个正则项,以解决样本数少于特征数以及特征存在线性相关(多重共线性)时产生的问题。
最小二乘法
多元线性模型 y=Xβ+ϵ 中, ϵ 为残差项,残差项越小,模型也就越拟合数据。最小二乘法就是求解使得残差平方和最小的参数的方法。残差平方和RSS为:
把这个式子求导计算一波就可以推出 β 的最小二乘估计:
如果X存在线性相关关系,或者p小于n,这时逆矩阵就无法求解。
岭回归
在最小二乘估计的基础上,岭回归增加了一项,称为岭回归估计: