一、岭回归
这个即我们通过最小二乘法求出来的w ,但是求出来的矩阵可能存在一个问题,即X可能不是满秩矩阵(即变量之间存在着多重共线性),此时求出来的
(
X
T
X
)
(X^{T}X)
(XTX)可能也是非满秩的,(即
(
X
T
X
)
(X^{T}X)
(XTX)可能不可逆 ),即w可能无法求出解。或者存在多个无穷个解使得w满足最小误差。这里补充一个矩阵求逆的方法:
设同理设一组变量a,b,c,d:
求解方程组:
所以当矩阵非满秩时求出来的,逆矩阵是不唯一的。(可逆的定义为
A
∗
A
(
−
1
)
A*A^(-1)
A∗A(−1)=E,矩阵满秩是矩阵可逆的必要不充分条件。)
所以如果矩阵是非满秩的,求出来的w也是向量也是不确定的,可能有一个或者多个。
由于x是非满秩的所以代表各个变量之间可能存在多重共线性,而多重共线性造成的后果便是过拟合,即w中有的系数有的过大(可能会达到几千等等),为此在损失函数中加入λ,来控制w变得过大,即
2、模型推导
岭回归其实就是在损失函数上加上了一个 L2 正则,使得每个变量的权重不会太大。当某些特征权重比较大的时候,自变化变化一点点,就会导致因变量变化很大,使得方差变大,有过拟合风险。
可以看出,经过λ的加入,使得可逆矩阵变为
x
T
X
+
λ
E
x^{T}X+λE
xTX+λE,是成为非满秩的概率大大下降,减小了多重共线性的影响。
岭回归的性质:
①岭回归是w的有偏估计
②w(λ)的模小于w,即w(λ)在一定程度上抑制了过拟合。
③存在某一个λ,使得它所对应的的MSE(估计向量的均方误差)<最小二乘法对应估计向量的的MSE。即存在λ>0,使得
理解:求出来的各个系数
β
i
β_i
βi的分布变化很小,小于最小二乘的
β
i
β_i
βi的分布方差,即方差很小。但是由于β(k)是有偏的会增大损失函数(即β(k)会偏离真实值,且k越大,其偏离真实偏离的越厉害。
并且从图中也可以看出,由于系数β向原点靠近了,所以各个系数都被压缩了,其整体的方差小于最小二乘估计的方差。
④当岭参数λ趋向更大时,岭回归系数β估计趋向于0。—为了使损失函数极小整体极小,比如让所有系数极小。
求解方法2:梯度下降法: