机器学习 岭回归

机器学习之岭回归

在线性回归模型中,有一个致命的问题,就是对于估计参数 ω = ( X T X ) − 1 X T Y \omega = (X^TX)^{-1}X^TY ω=(XTX)1XTY,如果 ( X T X ) (X^TX) (XTX)它不可逆那么就会导致无法求出这个参数,另外如果 ∣ X T X ∣ |X^TX| XTX月接近与0,会使得回归系数趋近于无穷大,这样也是无意义的。为了解决这类问题,我们可以使用岭回归。

另外还有一个问题,那就是过拟合问题,对于样本而言往往会出现数据的量不多,但有非常多的特征,那么这时候就很容易造成过拟合,这种过拟合的表现就是,在训练样本中表现的非常好,一到测试样本使,效果非常差,这也是我们所说的“泛化能力”差。

为了解决这类问题,有以下三种常见方式:

  • 增加数据
  • 特征选择/特征提取
  • 正则化

正则化框架:
a r g m i n w [ L ( w ) + λ P ( w ) ] argmin_w[L(w)+\lambda P(w)] argminw[L(w)+λP(w)]
其中 L ( w ) L(w) L(w)是损失函数, P ( w ) P(w) P(w)是惩罚函数
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 L(w)=\sum_{i=1}^{N}{||w^Tx_i-y_i||^2} L(w)=i=1NwTxiyi2
对于惩罚函数,有两种常见的处理方式:

  • L 1 : L a s s o : P ( w ) = ∣ ∣ w ∣ ∣ L_1:Lasso:P(w)=||w|| L1:Lasso:P(w)=w
  • L 2 : R i d g e : P ( w ) = ∣ ∣ w ∣ ∣ 2 = w T w L_2:Ridge:P(w)=||w||^2=w^Tw L2:Ridge:P(w)=w2=wTw

其中 L 2 L_2 L2又称为权值衰减

依照上面的框架,对于岭回归,写出正则化框架式:
J ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 + λ w T w J(w)=\sum_{i=1}^{N}{||w^Tx_i-y_i||^2}+\lambda w^Tw J(w)=i=1NwTxiyi2+λwTw

= ( w T X T − Y T ) ( X w − Y ) + λ w T w =(w^TX^T-Y^T)(Xw-Y)+\lambda w^Tw =(wTXTYT)(XwY)+λwTw

= w T X T X w − 2 w T X T Y + Y Y T + λ w T w =w^TX^TXw-2w^TX^TY+YY^T+\lambda w^Tw =wTXTXw2wTXTY+YYT+λwTw

= w T ( X T X + λ I ) w − 2 w T X T Y + Y T Y =w^T(X^TX+\lambda I)w-2w^TX^TY+Y^TY =wT(XTX+λI)w2wTXTY+YTY

那么求 w w w的最值,它可以表示为:
w = a r g m i n w J ( w ) w=argmin_wJ(w) w=argminwJ(w)
令 ∂ J ( w ) ∂ w = 2 ( X T X + λ I ) w − 2 X T Y = 0 令\frac{∂J(w)}{∂w}=2(X^TX+\lambda I)w-2X^TY=0 wJ(w)=2(XTX+λI)w2XTY=0

于是我们得到 w = ( X T X + λ I ) − 1 X T Y w=(X^TX+\lambda I)^{-1}X^TY w=(XTX+λI)1XTY,其中 L 2 L_2 L2范数惩罚项的加入使得 ( X T X + λ I ) (X^TX+\lambda I) (XTX+λI)满秩,那么就保证了可逆性,使得回归系数 β \beta β的估计不再是无偏估计。所以岭回归是以放弃无偏性、降低精度为代价解决病态矩阵问题的回归方法。

最小二乘估计实际上是等效于噪声是服从于高斯分布的极大似然估计

那么我们从贝叶斯角度来看岭回归: ε \varepsilon ε表示的是白噪声
对 于 线 性 回 归 方 程 : f ( w ) = w T x 对于线性回归方程:f(w)=w^Tx 线f(w)=wTx

y = w T x + ε 其 中 ε 是 白 噪 声 , 且 有 ε ∼ N ( 0 , σ 2 ) y=w^Tx+\varepsilon 其中\varepsilon是白噪声,且有\varepsilon\sim N(0,\sigma^2) y=wTx+εεεN(0,σ2)

那 么 有 : y ∣ x ; w ∼ N ( w T x , σ 2 ) 那么有:y|x;w\sim N(w^Tx,\sigma^2) yx;wN(wTx,σ2)

在贝叶斯理论中有: w ∼ N ( 0 , σ 0 2 ) w\sim N(0,\sigma_0^2) wN(0,σ02)
p ( w ∣ y ) = p ( y ∣ w ) ∗ p ( w ) p ( y ) p(w|y)=\frac{p(y|w)*p(w)}{p(y)} p(wy)=p(y)p(yw)p(w)

M A P : w = a r g m a x w p ( w ∣ y ) MAP:w=argmax_wp(w|y) MAP:w=argmaxwp(wy)

p ( y ) p(y) p(y) w w w无关,可以认为是一个常量,那么上式可以变为:
w = a r g m a x w p ( y ∣ w ) ∗ p ( w ) w=argmax_wp(y|w)*p(w) w=argmaxwp(yw)p(w)

另 外 已 知 p ( y ∣ w ) 和 p ( w ) 都 是 服 从 正 态 分 布 , 因 此 有 p ( w ∣ y ) = 1 2 π σ e − ( y − w T x ) 2 2 σ 2 , p ( w ) = 1 2 π σ 0 e − ∣ ∣ w ∣ ∣ 2 2 σ 0 2 另外已知p(y|w)和p(w)都是服从正态分布,因此有p(w|y)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-w^Tx)^2}{2\sigma^2}},p(w)=\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{||w||^2}{2\sigma_0^2}} p(yw)p(w)p(wy)=2π σ1e2σ2(ywTx)2,p(w)=2π σ01e2σ02w2

那么继续对 w w w进行变换:

两者相乘之后的系数可以认为是常数,接着对乘积取 l o g log log变成加法形式
w = a r g m i n w ( y − w T x ) 2 2 σ 2 + ∣ ∣ w ∣ ∣ 2 2 σ 0 2 w=argmin_w\frac{(y-w^Tx)^2}{2\sigma^2}+\frac{||w||^2}{2\sigma_0^2} w=argminw2σ2(ywTx)2+2σ02w2

w = a r g m i n 2 ( y − w T x ) 2 + σ 2 σ 0 2 ∣ ∣ w ∣ ∣ 2 w=argmin_2(y-w^Tx)^2+\frac{\sigma^2}{\sigma_0^2}||w||^2 w=argmin2(ywTx)2+σ02σ2w2

w M A P = a r g m i n ∑ i = 1 N ( y − w T x ) 2 + σ 2 σ 0 2 ∣ ∣ w ∣ ∣ 2 w_{MAP}=argmin\sum_{i=1}^{N}(y-w^Tx)^2+\frac{\sigma^2}{\sigma_0^2}||w||^2 wMAP=argmini=1N(ywTx)2+σ02σ2w2

可以发现贝叶斯派得到的式子和频率派得到的式子一致

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

call me Patrick

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值