【白板推导系列笔记】线性回归-正则化-岭回归-频率角度

在之前已知
L o s s   F u n c t i o n : L ( ω ) = ∑ i = 1 N ∣ ∣ ω T x i − y i ∣ ∣ 2 解得 ω ^ = ( X T X ) − 1 X T Y \begin{gathered} Loss \space Function:L(\omega)=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}\\ 解得\hat{\omega}=(X^{T}X)^{-1}X^{T}Y \end{gathered} Loss Function:L(ω)=i=1N∣∣ωTxiyi2解得ω^=(XTX)1XTY

在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:

  1. 加数据
  2. 特征选择(降低特征维度)如 PCA 算法。
  3. 正则化

正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚)

作者:tsyw
链接:线性回归 · 语雀 (yuque.com)

一般的,正则化框架有
a r g m i n ω [ L ( ω ) ⏟ L o s s + λ P ( ω ) ⏟ p e n a l t y ] \mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\underbrace{\lambda P(\omega)}_{penalty}] ωargmin[Loss L(ω)+penalty λP(ω)]
当使用L1 Lasso时,对应正则化框架
a r g m i n ω [ L ( ω ) ⏟ L o s s + ∣ ∣ ω ∣ ∣ 1 ] \mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||_{1}] ωargmin[Loss L(ω)+∣∣ω1]
当使用L2 Ridge(岭回归)时,对应正则化框架
a r g m i n ω [ L ( ω ) ⏟ L o s s + ∣ ∣ ω ∣ ∣ 2 2 ] = a r g m i n ω [ L ( ω ) ⏟ L o s s + ω T ω ] \mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||^{2}_{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega] ωargmin[Loss L(ω)+∣∣ω22]=ωargmin[Loss L(ω)+ωTω]

对于L2 Ridge,估计 ω ^ \hat{\omega} ω^
J ( ω ) = ∑ i = 1 N ∣ ∣ ω T x i − y i ∣ ∣ 2 + λ ω T ω = ( ω T X T − Y T ) ( X ω − Y ) + λ ω T ω = ω T X T X ω − 2 ω T X T Y + Y T T + λ ω T ω = ω T ( X T X + λ I ) ω − 2 ω T X T Y + Y T Y ω ^ = a r g m i n ω J ( ω ) ∂ J ( ω ) ∂ ω = 2 ( X T X + λ I ) ω − 2 X T Y 2 ( X T X + λ I ) ω − 2 X T Y = 0 ω ^ = ( X T X + λ I ) − 1 X T Y \begin{aligned} J(\omega)&=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}+\lambda \omega^{T}\omega\\ &=(\omega^{T}X^{T}-Y^{T})(X \omega-Y)+\lambda \omega^{T}\omega\\ &=\omega^{T}X^{T}X \omega-2\omega^{T}X^{T}Y+Y^{T}T+\lambda \omega^{T}\omega\\ &=\omega^{T}(X^{T}X+ \lambda I)\omega-2\omega^{T}X^{T}Y+Y^{T}Y\\ \hat{\omega}&=\mathop{argmin }\limits_{\omega}J(\omega)\\ \frac{\partial J(\omega)}{\partial \omega}&=2(X^{T}X+\lambda I)\omega-2X^{T}Y\\ 2(X^{T}X+\lambda I)\omega-2X^{T}Y&=0\\ \hat{\omega}&=(X^{T}X+\lambda I)^{-1}X^{T}Y \end{aligned} J(ω)ω^ωJ(ω)2(XTX+λI)ω2XTYω^=i=1N∣∣ωTxiyi2+λωTω=(ωTXTYT)(XωY)+λωTω=ωTXTXω2ωTXTY+YTT+λωTω=ωT(XTX+λI)ω2ωTXTY+YTY=ωargminJ(ω)=2(XTX+λI)ω2XTY=0=(XTX+λI)1XTY

利用2范数进行正则化不仅可以使模型选择 ω \omega ω较小的参数,同时也避免 X T X X^{T}X XTX不可逆的问题

作者:tsyw
链接:线性回归 · 语雀 (yuque.com)

在前面已经知道
y = f ( ω ) + ϵ = ω T x + ϵ ϵ ∼ ( 0 , σ 2 ) y ∣ x ; ω ∼ N ( ω T x , σ 2 ) \begin{gathered} y=f(\omega)+\epsilon =\omega^{T}x+\epsilon \\ \epsilon \sim (0,\sigma^{2})\\y|x;\omega \sim N(\omega^{T}x,\sigma^{2}) \end{gathered} y=f(ω)+ϵ=ωTx+ϵϵ(0,σ2)yx;ωN(ωTx,σ2)
假设权重先验也为高斯分布,即取先验分布 ω ∼ N ( 0 , σ 0 2 ) \omega \sim N(0,\sigma_{0}^{2}) ωN(0,σ02),又有
p ( y ∣ ω ) = 1 2 π σ exp [ − ( y − ω T x ) 2 2 σ 2 ] p ( ω ) = 1 2 π σ 0 exp [ − ∣ ∣ ω ∣ ∣ 2 2 σ 0 2 ] p ( ω ∣ y ) = p ( y ∣ ω ) p ( ω ) p ( y ) \begin{aligned} p(y|\omega)&=\frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}\right]\\ p(\omega)&=\frac{1}{\sqrt{2\pi}\sigma_{0}}\text{exp}\left[- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ p(\omega|y)&=\frac{p(y|\omega)p(\omega)}{p(y)} \end{aligned} p(yω)p(ω)p(ωy)=2π σ1exp[2σ2(yωTx)2]=2π σ01exp[2σ02∣∣ω2]=p(y)p(yω)p(ω)
因此对于 ω \omega ω的最大后验,有
ω ^ = a r g m a x   ω p ( ω ∣ y ) 这里应该是 ∏ i = 1 N p ( ω ∣ y i ) , 但最后再写不影响 = a r g m a x   ω p ( y ∣ ω ) ⋅ p ( ω ) = a r g m a x   ω log ⁡ [ p ( y ∣ ω ) ⋅ p ( ω ) ] = a r g m a x   ω log ⁡ ( 1 2 π σ 1 2 π σ 0 ) + log ⁡ exp [ − ( y − ω T x ) 2 2 σ 2 − ∣ ∣ ω ∣ ∣ 2 2 σ 0 2 ] = a r g m i n   ω [ ( y − ω T x ) 2 2 σ 2 + ∣ ∣ ω ∣ ∣ 2 2 σ 0 2 ] = a r g m i n   ω [ ( y − ω T x ) 2 + σ 2 σ 0 2 ∣ ∣ ω ∣ ∣ 2 ] = a r g m i n   ω [ ∑ i = 1 N ( y i − ω T x i ) 2 + σ 2 σ 0 2 ∣ ∣ ω ∣ ∣ 2 ] \begin{aligned} \hat{\omega}&=\mathop{argmax\space}\limits_{\omega}p(\omega|y)\quad 这里应该是\prod\limits_{i=1}^{N}p(\omega|y_{i}),但最后再写不影响\\ &=\mathop{argmax\space}\limits_{\omega}p(y|\omega)\cdot p(\omega)\\ &=\mathop{argmax\space}\limits_{\omega}\log[p(y|\omega)\cdot p(\omega)]\\ &=\mathop{argmax\space}\limits_{\omega}\log\left(\frac{1}{\sqrt{2\pi}\sigma} \frac{1}{\sqrt{2\pi}\sigma_{0}}\right)+\log \text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[ \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}+ \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[(y-\omega^{T}x)^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}||\omega||^{2}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[\sum\limits_{i=1}^{N}(y_{i}-\omega^{T}x_{i})^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}|| \omega||^{2}\right] \end{aligned} ω^=ωargmax p(ωy)这里应该是i=1Np(ωyi),但最后再写不影响=ωargmax p(yω)p(ω)=ωargmax log[p(yω)p(ω)]=ωargmax log(2π σ12π σ01)+logexp[2σ2(yωTx)22σ02∣∣ω2]=ωargmin [2σ2(yωTx)2+2σ02∣∣ω2]=ωargmin [(yωTx)2+σ02σ2∣∣ω2]=ωargmin [i=1N(yiωTxi)2+σ02σ2∣∣ω2]
从这里就可以看出,正则化后的最小二乘估计等价于噪声为高斯分布、先验分布为高斯分布的最大后验
再加上之前的,没有正则化的最小二乘估计等价于噪声为高斯分布的极大似然估计

我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道⽔果的种类之前,有⼈问我们哪个盒⼦被选中,那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率(prior probability),因为它是在我们观察到⽔果种类之前就能够得到的概率。⼀旦我们知道⽔果是橘⼦,我们就能够使⽤贝叶斯定理来计算概率p(B | F )。这个被称为后验概率(posterior probability),因为它是我们观察到F之后的概率。注意,在这个例⼦中,选择红盒⼦的先验概率是 4 10 \frac{4}{10} 104,所以与红盒⼦相⽐,我们更有可能选择蓝盒⼦。然⽽,⼀旦我们观察到选择的⽔果是橘⼦,我们发现红盒⼦的后验概率现在是 2 3 \frac{2}{3} 32,因此现在实际上更可能选择的是红盒⼦。这个结果与我们的直觉相符,因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多,因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。事实上,这个证据相当强,已经超过了先验的假设,使得红盒⼦被选择的可能性⼤于蓝盒⼦。

来源:《PRML Translation》-P19
作者:马春鹏
原著:《Pattern Recognition and Machine Learning》
作者:Christopher M. Bishop

小结
线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。

作者:tsyw
链接:线性回归 · 语雀 (yuque.com)

该部分在PRML中P27,28页中有提到

CSDN话题挑战赛第2期
参赛话题:学习笔记

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值