从贝叶斯角度看正则化

Regularization: A Bayesian point of view

Introduction

正则化(regularization)是防止模型过拟合(overfitting)的 有效方式之一。常用的正则化包括L1正则和L2正则,我们知道使用L1正则化的回归对应LASSO(最小绝对收缩选择因子)回归,使得参数稀疏化,倾向于产生稀疏模型,是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。而L2正则化对应岭回归,倾向于选择使各个参数尽可能小的模型,L2正则化更平滑,在可解释性方面差于L1正则化,但是L2能更好的防止过拟合。下面主要从贝叶斯理论的角度理解正则化。

在这里插入图片描述

Linear regression

Ordinary linear regression采用均方误差,hypothesis $f(x) = {w^T}x $ ,通过最小化均方误差(观测值与预测值的残差平方)来训练模型参数,即
w = arg ⁡ min ⁡ w ∑ i = 1 m ( y ( i ) − w T x ( i ) ) 2 w = \mathop {\arg \min }\limits_w \sum\limits_{{\rm{i}} = 1}^m {{{({y^{(i)}} - {w^T}{x^{(i)}})}^2}} w=wargmini=1m(y(i)wTx(i))2
下面我们假设第i个样本上的误差 ( i ) = y ( i ) − w T x ( i ) {^{(i)}} = {y^{(i)}} - {w^T}{x^{(i)}} (i)=y(i)wTx(i) 服从gaussian分布,即
p ( ϵ ( i ) ) = 1 2 π δ exp ⁡ ( − ( ϵ ( i ) ) 2 2 δ 2 ) p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \delta^{2}}\right) p(ϵ(i))=2π δ1exp(2δ2(ϵ(i))2)
​ 于是
p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π δ exp ⁡ ( − ( y ( i ) − w T x ( i ) ) 2 2 δ 2 ) p\left(y^{(i)} | x^{(i)} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) p(y(i)x(i);θ)=2π δ1exp(2δ2(y(i)wTx(i))2)
由最大似然估计(MLE)
L ( w ) = p ( y ⃗ ∣ X ; w ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 m 1 2 π δ exp ⁡ ( − ( y ( i ) − w T x ( i ) ) 2 2 δ 2 ) \begin{aligned} L(w) &=p(\vec{y} | X ; w) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \end{aligned} L(w)=p(y X;w)=i=1mp(y(i)x(i);θ)=i=1m2π δ1exp(2δ2(y(i)wTx(i))2)
取对数有:
l ( w ) = log ⁡ L ( w ) = log ⁡ ∏ i = 1 m 1 2 π δ exp ⁡ ( − ( y ( i ) − w T x ( i ) ) 2 δ 2 ) = ∑ i = 1 m log ⁡ 1 2 π δ exp ⁡ ( − ( y ( i ) − w T x ( i ) ) 2 2 δ 2 ) = m log ⁡ 1 2 π δ − 1 2 δ 2 ∑ i = 1 m ( y ( i ) − w T x ( i ) ) 2 \begin{aligned} l(w) &=\log L(w) \\ &=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)}{2 \delta^{2}}\right) \\ &=\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \\ &=m \log \frac{1}{\sqrt{2 \pi} \delta}-\frac{1}{2\delta^{2}}\sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2} \end{aligned} l(w)=logL(w)=logi=1m2π δ1exp(2δ2(y(i)wTx(i)))=i=1mlog2π δ1exp(2δ2(y(i)wTx(i))2)=mlog2π δ12δ21i=1m(y(i)wTx(i))2
最大化该似然即为最小化第二项均方损失,即
w M L E = arg ⁡ min ⁡ w ∑ i = 1 m ( y ( i ) − w T x ( i ) ) 2 w_{M L E}=\arg \min _{w} \sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2} wMLE=argwmini=1m(y(i)wTx(i))2
上式说明,在假设了数据集的误差服从Gaussian分布的条件下,通过最大似然估计(MLE)最大化似然函数(3)等价于最小化平方损失(1),进一步地我们可以得到一个普遍的结论:最小化经验损失(empirical loss)对应于贝叶斯框架下最大化似然函数。上述分析是在没有假设参数先验的情况下进行的,很容易产生过拟合,下面我们对参数w引入先验分布,以此来降低模型的复杂度。

Ridge regression

我们对参数 w w w 引入协方差为$\alpha $ 的Gaussian先验,即
p ( w j ) = 1 2 π α exp ⁡ ( − ( w ( j ) ) 2 2 α ) p(w_j)=\frac{1}{\sqrt{2 \pi \alpha}} \exp \left(-\frac{\left(w^{(j)}\right)^{2}}{2 \alpha}\right) p(wj)=2πα 1exp(2α(w(j))2)
由于引入了先验分布,采用最大后验估计(MAP)
L ( w ) = p ( y ⃗ ∣ X ; w ) p ( w ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) p ( w ) = ∏ i = 1 m 1 2 π δ exp ⁡ ( − ( y ( i ) − w T x ( i ) ) 2 2 δ 2 ) ∏ j = 1 n 1 2 π α exp ⁡ ( − ( w ( j ) ) 2 2 α ) = ∏ i = 1 m 1 2 π δ exp ⁡ ( − ( y ( i ) − w T x ( i ) ) 2 2 δ 2 ) 1 2 π α exp ⁡ ( − w T w 2 α ) \begin{aligned} L(w) &=p(\vec{y} | X ; w) p(w) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) p(w) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi \delta}} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \prod_{j=1}^{n} \frac{1}{\sqrt{2 \pi \alpha}} \exp \left(-\frac{\left(w^{(j)}\right)^{2}}{2 \alpha}\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \frac{1}{\sqrt{2 \pi \alpha}} \exp \left(-\frac{w^{T} w}{2 \alpha}\right) \end{aligned} L(w)=p(y X;w)p(w)=i=1mp(y(i)x(i);θ)p(w)=i=1m2πδ 1exp(2δ2(y(i)wTx(i))2)j=1n2πα 1exp(2α(w(j))2)=i=1m2π δ1exp(2δ2(y(i)wTx(i))2)2πα 1exp(2αwTw)
取对数后有
l ( w ) = log ⁡ L ( w ) = m log ⁡ 1 2 π δ + n log ⁡ 1 2 π α − 1 2 δ 2 ∑ i = 1 m ( y ( i ) − w T x ( i ) ) 2 − 1 2 α w T w ⇒ w M A P Gussian = arg ⁡ min ⁡ w ( 1 2 δ 2 ∑ i = 1 m ( y ( i ) − w T x ( i ) ) 2 + 1 2 α w T w ) \begin{aligned} l(w) &=\log L(w) \\ &=m \log \frac{1}{\sqrt{2 \pi} \delta}+n \log \frac{1}{\sqrt{2 \pi \alpha}}-\frac{1}{2\delta^{2}} \sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}-\frac{1}{2\alpha} w^{T} w \\ \Rightarrow & w_{M A P_{\text {Gussian}}}=\arg \min _{w}\left(\frac{1}{2\delta^{2}}\sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}+\frac{1}{2\alpha} w^{T} w\right) \end{aligned} l(w)=logL(w)=mlog2π δ1+nlog2πα 12δ21i=1m(y(i)wTx(i))22α1wTwwMAPGussian=argwmin(2δ21i=1m(y(i)wTx(i))2+2α1wTw)
等价于
J ( w ) = 1 n ∥ y − w T X ∥ 2 + λ ∥ w ∥ 2 J(w)=\frac{1}{n}\left\|y-w^{T} X\right\|_{2}+\lambda\|w\|_{2} J(w)=n1ywTX2+λw2
上式说明,L2正则化等价于对参数引入Gaussian先验分布。ridge regression 并不具有产生稀疏解的能力,也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关,L2正则倾向于综合两者的影响,给影响大的特征赋予高的权重;而L1正则倾向于选择影响较大的参数,而舍弃掉影响较小的那个。实际应用中 L2 正则表现往往会优于 L1正则,但 L1 正则便于产生稀疏模型,便于进行特征选择。

LASSO

Laplace分布
f ( x ∣ μ , b ) = 1 2 b exp ⁡ ( − ∣ x − μ ∣ b ) f(x | \mu, b)=\frac{1}{2 b} \exp \left(-\frac{|x-\mu|}{b}\right) f(xμ,b)=2b1exp(bxμ)
在这里插入图片描述

同理可以推导出
w M A P L a p a c e = arg ⁡ min ⁡ w ( 1 2 δ 2 ∑ i = 1 m ( y ( i ) − w T x ( i ) ) 2 + 1 2 b 2 ∥ w ∥ 1 ) w_{M A P_{L a p a c e}}=\arg \min _{w}\left(\frac{1}{2\delta^{2}} \sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}+\frac{1}{2b^{2}}\|w\|_{1}\right) wMAPLapace=argwmin(2δ21i=1m(y(i)wTx(i))2+2b21w1)
L1正则化等价于对参数引入Laplace先验分布

该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题,不具有解析解,它的优良性质是能产生稀疏性,导致 w中许多项变成零。

Summary

​ 正则化参数等价于对参数引入 先验分布,使得 模型复杂度 变小(缩小解空间),对于噪声以及outliers的鲁棒性增强(泛化能力)。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中 正则化项 对应后验估计中的 先验信息 ,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计的形式。

参考http://charleshm.github.io/2016/03/Regularized-Regression/#fn:5

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值