1. 岭回归
岭回归,又称脊回归、吉洪诺夫正则化(Tikhonov regularization),是对不适定问题(ill-posed problem)进行回归分析时最经常使用的一种正则化方法
适定问题是指定解满足下面三个要求的问题:① 解是存在的;② 解是唯一的;③ 解连续依赖于定解条件,即解是稳定的。这三个要求中,只要有一个不满足,则称之为不适定问题。
岭回归是对最小二乘估计的一个补充,最小二乘估计法是无偏估计,而岭回归放弃了无偏估计,以损失部分信息,降低精度为代价来更好的拟合数据,常用在“病态数据”。比如,对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”
对于一个适定问题,
X
X
通常是列满秩的,采用最小二乘法,(通常样本数量n要大于特征数量p,才有唯一解)我们最后可以得到求解公式 其中, 通常是列满秩的
当
X
X
不是列满秩的时候,或者某些列之间的线性相关比较大时,的行列式接近于0,即
XTX
X
T
X
接近于奇异,上述问题变为一个不适定问题,此时,计算
(XTX)−1
(
X
T
X
)
−
1
时误差会很大,传统的最小二乘法缺乏稳定性与可靠性。
转化为适定问题:为损失函数加上一个正则项,得岭回归的损失函数为
L=12∥Xθ−y∥2+12∥Γθ∥2
L
=
1
2
‖
X
θ
−
y
‖
2
+
1
2
‖
Γ
θ
‖
2
对
θ
θ
求导,定义
Γ=αI
Γ
=
α
I
, 可得
θ(α)=(XTX+αI)−1XTy
θ
(
α
)
=
(
X
T
X
+
α
I
)
−
1
X
T
y
, 其中
I
I
是单位矩阵,可以看作是特征的方差,即各个特征的权的总的平衡程度
随着 α α 的增大, θ(α) θ ( α ) 各元素 θ(α)i θ ( α ) i 的绝对值均趋于不断变小,它们相对于正确值 θi θ i 的偏差也越来越大。 α α 趋于无穷大时, θ(α) θ ( α ) 趋于0。其中, θ(α) θ ( α ) 随 α α 的改变而变化的轨迹,就称为岭迹。实际计算中可选非常多的 α α 值,做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定 α α 值了。
详细的图示见参考链接
refer:
岭回归与最小二乘估计的区别
岭回归-简书
2. lasso
损失函数为
L=12∥Xθ−y∥2+λ∑ni=0|wi|
L
=
1
2
‖
X
θ
−
y
‖
2
+
λ
∑
i
=
0
n
|
w
i
|
与岭回归的区别就在于正则项不同,lasso更容易产生解为0的情况,可以起到筛选变量的目的
refer:
岭回归,lasso 回归
3. 偏差和方差
偏差bais:误差,数据的准确性,分为系统误差和随机误差(只能尽量减少,不能避免),在线性回归中常用b来表示,
方差 variance: 预测出来的数据的分散程度
残差:观测值与真实值之间的差距,衡量的是预测的准确性。与数据本身的分布特性以及回归方程的选择有关。 y−y^ y − y ^
残差平方和: residual sum of squares W∥Y−Y^∥2 W ‖ Y − Y ^ ‖ 2
refer: 残差 方差 离差