1. 线性回归及其局限性
线性回归是我们比较熟悉的一类回归模型。已知自变量(可能不止一个变量,不妨设有
n
个变量,记为
通常采用最小二乘法来求解,也就是寻找
ξ
使得
J(ξ)=||Aξ−b||2
最小。
利用矩阵的知识,容易求得最小二乘解:
ξ=(ATA)−1ATb
。 (1)
注意到矩阵
(ATA)
是一个半正定矩阵,但是极少数情况下,它的行列式还是可能为0,也就是存在不可逆的情况。这种情况下,我们就不能求得最小二乘解。也就是说,
x
与
2. 岭回归
虽然没有最优解,但是我们可以有很多的近似解。岭回归就是其中一种求解近似解的方法。它的原理是牺牲解的无偏性来获得稳定的数值解。通常,引入一个正则参数来建立模型:
J(ξ)=||Aξ−b||2+||Λξ||2
(2)
Λ
通常称为吉洪诺夫矩阵。一般取
Λ=λI
,
I
为单位矩阵。
采用拉格朗日乘数法,可以求得(2)的解为:
容易看出,原问题的条件数为
cond(A)=||A||||A−1||
,而添加正则项之后的问题的条件数为
cond(A+λI)=||A+λI||||(A+λI)−1||
。可见条件数确实会减小,因而数值稳定性得以提高。
3. 岭回归名称的由来
岭回归又称脊回归,它的名字来源于模型的解与正则化参数 λ 之间的图像。下图是某个岭回归模型的解的5个分量随着 λ 变化而变化的趋势。这图像类似于山脊,因而得名。
参考文献:
1. Tikhonov regularization