ML Note 2.1 - Regularization

在前面的章节中,我们一直使用 frequentist statistics 的视角来进行建模。我们将 θ \theta θ 视作一个常数,并假设其值可以使观测数据在理论上出现的概率最大
θ = arg ⁡ max ⁡ θ ∑ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) \theta = \arg\max_\theta\sum\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}; \theta\right) θ=argθmaxi=1mp(y(i)x(i);θ)

与之对应的另一种视角是 Bayesian 方法。这里我们将 θ \theta θ 视为一个随机变量。它具有某种先验分布 p ( θ ) p(\theta) p(θ) 用来反映我们对 θ \theta θ 的初始猜测。根据贝叶斯公式,我们可以计算 θ \theta θ 的后验分布
p ( θ ∣ S ) = p ( S ∣ θ ) p ( θ ) p ( S ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) , θ ) p ( θ ) ∫ θ ( ∏ i = 1 m p ( y ( i ) ∣ x ( i ) , θ ) p ( θ ) ) d θ \begin{array}{rcl} p(\theta|S) &=& \frac{p(S|\theta)p(\theta)}{p(S)}\\ &=& \frac{\prod_{i=1}^mp\left(y^{(i)}|x^{(i)},\theta\right)p(\theta)}{\int_\theta\left(\prod_{i=1}^mp\left(y^{(i)}|x^{(i)},\theta\right)p(\theta)\right)d\theta} \end{array} p(θS)==p(S)p(Sθ)p(θ)θ(i=1mp(y(i)x(i),θ)p(θ))dθi=1mp(y(i)x(i),θ)p(θ)

预测结果以分布的形式给出
p ( y ∣ x , S ) = ∫ θ p ( y ∣ x , θ ) p ( θ ∣ S ) d θ p(y|x,S) = \int_\theta p(y|x,\theta)p(\theta|S)d\theta p(yx,S)=θp(yx,θ)p(θS)dθ

贝叶斯线性回归

w ∼ N ( 0 , τ 2 I ) w \sim N(0, \tau^2I) wN(0,τ2I) 为参数的先验分布
p ( w ) ∏ i = 1 m p ( y ( i ) ∣ x ( i ) , w ) = 1 ( 2 π ) n / 2 ∣ τ ∣ exp ⁡ ( − w T w 2 τ 2 ) ∏ i = 1 m 1 2 π σ exp ⁡ ( − ( y ( i ) − w T x ( i ) ) 2 2 σ 2 ) \begin{array}{cl} & p(w)\prod\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}, w\right)\\ =& \frac{1}{(2\pi)^{n/2}|\tau|}\exp\left(-\frac{w^Tw}{2\tau^2}\right) \prod\limits_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{\left(y^{(i)} - w^Tx^{(i)}\right)^2}{2\sigma^2}\right) \end{array} =p(w)i=1mp(y(i)x(i),w)(2π)n/2τ1exp(2τ2wTw)i=1m2π σ1exp(2σ2(y(i)wTx(i))2)

定义
Σ − 1 = τ − 2 I + σ − 2 X T X u = σ − 2 Σ X T Y \begin{array}{rcl} \Sigma^{-1} &=& \tau^{-2}I + \sigma^{-2}X^TX\\ u &=& \sigma^{-2} \Sigma X^TY \end{array} Σ1u==τ2I+σ2XTXσ2ΣXTY

则可以得到1
w ∣ S ∼ N ( u , Σ ) w|S \sim N(u, \Sigma) wSN(u,Σ)

如果将 Σ \Sigma Σ 的定义扩展为
Σ − 1 = τ − 2 I + σ − 2 X T X + σ − 2 x x T \Sigma^{-1} = \tau^{-2}I + \sigma^{-2}X^TX + \sigma^{-2}xx^T Σ1=τ2I+σ2XTX+σ2xxT

同时定义
p ( x ) = σ 2 − x T Σ x q ( x ) = x T Σ X T Y \begin{array}{rcl} p(x) &=& \sigma^2 - x^T\Sigma x\\ q(x) &=& x^T\Sigma X^TY \end{array} p(x)q(x)==σ2xTΣxxTΣXTY

则预测结果可以表示为
y ∣ x , S ∼ N ( q ( x ) p ( x ) , σ 4 p − 2 ( x ) ) y|x, S \sim N\left(\frac{q(x)}{p(x)}, \sigma^4p^{-2}(x)\right) yx,SN(p(x)q(x),σ4p2(x))

Regularization

在一些情况下,上述方法是可行的。但是如果上述推导不能得到解析解,而 θ \theta θ 的维度又较高,则一般采用 MAP (maximum a posterior) 来近似预测
θ MAP = max ⁡ θ ( ∏ i = 1 m p ( y ( i ) ∣ x ( i ) , θ ) ) p ( θ ) \theta_{\text{MAP}} = \max_\theta\left(\prod_{i=1}^mp\left(y^{(i)}|x^{(i)},\theta\right)\right)p(\theta) θMAP=θmax(i=1mp(y(i)x(i),θ))p(θ)

类似 log likelihood 对贝叶斯线性回归的后验概率取对数可得
ln ⁡ ( p ( w ) ∏ i = 1 m p ( y ( i ) ∣ x ( i ) , w ) ) = − w T w 2 τ 2 − C − ∑ i = 1 m ( ( y ( i ) − w T x ( i ) ) 2 2 σ 2 + C i ) = − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − w T x ( i ) ) 2 − w T w 2 τ 2 + C \begin{array}{cl} & \ln\left(p(w)\prod\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}, w\right)\right)\\ =& -\frac{w^Tw}{2\tau^2} - C - \sum\limits_{i=1}^m\left(\frac{\left(y^{(i)} - w^Tx^{(i)}\right)^2}{2\sigma^2} + C_i\right)\\ =& -\frac{1}{2\sigma^2}\sum\limits_{i=1}^m\left(y^{(i)} - w^Tx^{(i)}\right)^2 - \frac{w^Tw}{2\tau^2} + C \end{array} ==ln(p(w)i=1mp(y(i)x(i),w))2τ2wTwCi=1m(2σ2(y(i)wTx(i))2+Ci)2σ21i=1m(y(i)wTx(i))22τ2wTw+C

其中 C C C 是与 w w w 无关得常数。我们在处理线性回归时曾得到
l ( θ ) = − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − h ( x ( i ) ) ) 2 + C l(\theta) = -\frac{1}{2\sigma^2}\sum\limits_{i=1}^m(y^{(i)} - h(x^{(i)}))^2 + C l(θ)=2σ21i=1m(y(i)h(x(i)))2+C

如果引入 λ = τ − 2 / 2 \lambda = \tau^{-2} / 2 λ=τ2/2 则有
w MAP = max ⁡ w ( l ( w ) − λ ∣ ∣ w ∣ ∣ 2 ) w_{\text{MAP}} = \max_w \left(l(w) - \lambda||w||^2\right) wMAP=wmax(l(w)λw2)

对比 MLE 使用的优化目标
w = max ⁡ w l ( w ) w = \max_w l(w) w=wmaxl(w)

可以看出,贝叶斯估计得到的目标函数后有一个正则项 λ ∣ ∣ w ∣ ∣ 2 \lambda||w||^2 λw2 ,其中 λ \lambda λ 称为 regularization parameter. 由于正则项中包含 w w w l 2 l_2 l2 范式,因此又被称为 l 2 l_2 l2 正则项。

本例中为了使目标函数达到最大,正则项可以限制 ∣ ∣ w ∣ ∣ ||w|| w 在一个较小的范围,从而在一定程度上抑制过拟合。考虑到截距项的大小一般是不易变化的,在计算 l 2 l_2 l2 范式时我们常常忽略 w 0 w_0 w0 而只取
∣ ∣ w ∣ ∣ 2 = ∑ i = 1 n w i 2 ||w||^2 = \sum\limits_{i = 1}^n w_i^2 w2=i=1nwi2


  1. 仅关注指数部分
    − w T w 2 τ 2 − ∑ i = 1 m ( y ( i ) − w T x ( i ) ) 2 2 σ 2 = − 1 2 w T Σ − 1 w + σ − 2 Y T X w − 1 2 σ 2 ∣ ∣ Y ∣ ∣ 2 \begin{array}{cl} & -\frac{w^Tw}{2\tau^2} - \sum\limits_{i = 1}^m \frac{\left(y^{(i)} - w^Tx^{(i)}\right)^2}{2\sigma^2}\\ =& -\frac{1}{2}w^T\Sigma^{-1}w + \sigma^{-2}Y^TX w - \frac{1}{2\sigma^2} ||Y||^2\\ \end{array} =2τ2wTwi=1m2σ2(y(i)wTx(i))221wTΣ1w+σ2YTXw2σ21Y2因为 u T Σ − 1 = σ − 2 Y T X u^T\Sigma^{-1} = \sigma^{-2}Y^TX uTΣ1=σ2YTX 所以指数部分可以化为
    − 1 2 ( w − u ) T Σ − 1 ( w − u ) + 1 2 u T Σ − 1 u − 1 2 σ 2 ∣ ∣ Y ∣ ∣ 2 -\frac{1}{2}(w - u)^T\Sigma^{-1}(w - u) + \frac{1}{2}u^T\Sigma^{-1}u - \frac{1}{2\sigma^2}||Y||^2 21(wu)TΣ1(wu)+21uTΣ1u2σ21Y2 over. ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LutingWang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值