机器学习之岭回归
在线性回归模型中,有一个致命的问题,就是对于估计参数 ω = ( X T X ) − 1 X T Y \omega = (X^TX)^{-1}X^TY ω=(XTX)−1XTY,如果 ( X T X ) (X^TX) (XTX)它不可逆那么就会导致无法求出这个参数,另外如果 ∣ X T X ∣ |X^TX| ∣XTX∣月接近与0,会使得回归系数趋近于无穷大,这样也是无意义的。为了解决这类问题,我们可以使用岭回归。
另外还有一个问题,那就是过拟合问题,对于样本而言往往会出现数据的量不多,但有非常多的特征,那么这时候就很容易造成过拟合,这种过拟合的表现就是,在训练样本中表现的非常好,一到测试样本使,效果非常差,这也是我们所说的“泛化能力”差。
为了解决这类问题,有以下三种常见方式:
- 增加数据
- 特征选择/特征提取
- 正则化
正则化框架:
a
r
g
m
i
n
w
[
L
(
w
)
+
λ
P
(
w
)
]
argmin_w[L(w)+\lambda P(w)]
argminw[L(w)+λP(w)]
其中
L
(
w
)
L(w)
L(w)是损失函数,
P
(
w
)
P(w)
P(w)是惩罚函数
L
(
w
)
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
L(w)=\sum_{i=1}^{N}{||w^Tx_i-y_i||^2}
L(w)=i=1∑N∣∣wTxi−yi∣∣2
对于惩罚函数,有两种常见的处理方式:
- L 1 : L a s s o : P ( w ) = ∣ ∣ w ∣ ∣ L_1:Lasso:P(w)=||w|| L1:Lasso:P(w)=∣∣w∣∣
- L 2 : R i d g e : P ( w ) = ∣ ∣ w ∣ ∣ 2 = w T w L_2:Ridge:P(w)=||w||^2=w^Tw L2:Ridge:P(w)=∣∣w∣∣2=wTw
其中 L 2 L_2 L2又称为权值衰减
依照上面的框架,对于岭回归,写出正则化框架式:
J
(
w
)
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
+
λ
w
T
w
J(w)=\sum_{i=1}^{N}{||w^Tx_i-y_i||^2}+\lambda w^Tw
J(w)=i=1∑N∣∣wTxi−yi∣∣2+λwTw
= ( w T X T − Y T ) ( X w − Y ) + λ w T w =(w^TX^T-Y^T)(Xw-Y)+\lambda w^Tw =(wTXT−YT)(Xw−Y)+λwTw
= w T X T X w − 2 w T X T Y + Y Y T + λ w T w =w^TX^TXw-2w^TX^TY+YY^T+\lambda w^Tw =wTXTXw−2wTXTY+YYT+λwTw
= w T ( X T X + λ I ) w − 2 w T X T Y + Y T Y =w^T(X^TX+\lambda I)w-2w^TX^TY+Y^TY =wT(XTX+λI)w−2wTXTY+YTY
那么求
w
w
w的最值,它可以表示为:
w
=
a
r
g
m
i
n
w
J
(
w
)
w=argmin_wJ(w)
w=argminwJ(w)
令
∂
J
(
w
)
∂
w
=
2
(
X
T
X
+
λ
I
)
w
−
2
X
T
Y
=
0
令\frac{∂J(w)}{∂w}=2(X^TX+\lambda I)w-2X^TY=0
令∂w∂J(w)=2(XTX+λI)w−2XTY=0
于是我们得到 w = ( X T X + λ I ) − 1 X T Y w=(X^TX+\lambda I)^{-1}X^TY w=(XTX+λI)−1XTY,其中 L 2 L_2 L2范数惩罚项的加入使得 ( X T X + λ I ) (X^TX+\lambda I) (XTX+λI)满秩,那么就保证了可逆性,使得回归系数 β \beta β的估计不再是无偏估计。所以岭回归是以放弃无偏性、降低精度为代价解决病态矩阵问题的回归方法。
最小二乘估计实际上是等效于噪声是服从于高斯分布的极大似然估计
那么我们从贝叶斯角度来看岭回归:
ε
\varepsilon
ε表示的是白噪声
对
于
线
性
回
归
方
程
:
f
(
w
)
=
w
T
x
对于线性回归方程:f(w)=w^Tx
对于线性回归方程:f(w)=wTx
y = w T x + ε 其 中 ε 是 白 噪 声 , 且 有 ε ∼ N ( 0 , σ 2 ) y=w^Tx+\varepsilon 其中\varepsilon是白噪声,且有\varepsilon\sim N(0,\sigma^2) y=wTx+ε其中ε是白噪声,且有ε∼N(0,σ2)
那 么 有 : y ∣ x ; w ∼ N ( w T x , σ 2 ) 那么有:y|x;w\sim N(w^Tx,\sigma^2) 那么有:y∣x;w∼N(wTx,σ2)
在贝叶斯理论中有:
w
∼
N
(
0
,
σ
0
2
)
w\sim N(0,\sigma_0^2)
w∼N(0,σ02)
p
(
w
∣
y
)
=
p
(
y
∣
w
)
∗
p
(
w
)
p
(
y
)
p(w|y)=\frac{p(y|w)*p(w)}{p(y)}
p(w∣y)=p(y)p(y∣w)∗p(w)
M A P : w = a r g m a x w p ( w ∣ y ) MAP:w=argmax_wp(w|y) MAP:w=argmaxwp(w∣y)
p
(
y
)
p(y)
p(y)和
w
w
w无关,可以认为是一个常量,那么上式可以变为:
w
=
a
r
g
m
a
x
w
p
(
y
∣
w
)
∗
p
(
w
)
w=argmax_wp(y|w)*p(w)
w=argmaxwp(y∣w)∗p(w)
另 外 已 知 p ( y ∣ w ) 和 p ( w ) 都 是 服 从 正 态 分 布 , 因 此 有 p ( w ∣ y ) = 1 2 π σ e − ( y − w T x ) 2 2 σ 2 , p ( w ) = 1 2 π σ 0 e − ∣ ∣ w ∣ ∣ 2 2 σ 0 2 另外已知p(y|w)和p(w)都是服从正态分布,因此有p(w|y)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-w^Tx)^2}{2\sigma^2}},p(w)=\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{||w||^2}{2\sigma_0^2}} 另外已知p(y∣w)和p(w)都是服从正态分布,因此有p(w∣y)=2πσ1e−2σ2(y−wTx)2,p(w)=2πσ01e−2σ02∣∣w∣∣2
那么继续对 w w w进行变换:
两者相乘之后的系数可以认为是常数,接着对乘积取
l
o
g
log
log变成加法形式
w
=
a
r
g
m
i
n
w
(
y
−
w
T
x
)
2
2
σ
2
+
∣
∣
w
∣
∣
2
2
σ
0
2
w=argmin_w\frac{(y-w^Tx)^2}{2\sigma^2}+\frac{||w||^2}{2\sigma_0^2}
w=argminw2σ2(y−wTx)2+2σ02∣∣w∣∣2
w = a r g m i n 2 ( y − w T x ) 2 + σ 2 σ 0 2 ∣ ∣ w ∣ ∣ 2 w=argmin_2(y-w^Tx)^2+\frac{\sigma^2}{\sigma_0^2}||w||^2 w=argmin2(y−wTx)2+σ02σ2∣∣w∣∣2
w M A P = a r g m i n ∑ i = 1 N ( y − w T x ) 2 + σ 2 σ 0 2 ∣ ∣ w ∣ ∣ 2 w_{MAP}=argmin\sum_{i=1}^{N}(y-w^Tx)^2+\frac{\sigma^2}{\sigma_0^2}||w||^2 wMAP=argmini=1∑N(y−wTx)2+σ02σ2∣∣w∣∣2
可以发现贝叶斯派得到的式子和频率派得到的式子一致