Regularization: A Bayesian point of view
Introduction
正则化(regularization)是防止模型过拟合(overfitting)的 有效方式之一。常用的正则化包括L1正则和L2正则,我们知道使用L1正则化的回归对应LASSO(最小绝对收缩选择因子)回归,使得参数稀疏化,倾向于产生稀疏模型,是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。而L2正则化对应岭回归,倾向于选择使各个参数尽可能小的模型,L2正则化更平滑,在可解释性方面差于L1正则化,但是L2能更好的防止过拟合。下面主要从贝叶斯理论的角度理解正则化。
Linear regression
Ordinary linear regression采用均方误差,hypothesis $f(x) = {w^T}x $ ,通过最小化均方误差(观测值与预测值的残差平方)来训练模型参数,即
w
=
arg
min
w
∑
i
=
1
m
(
y
(
i
)
−
w
T
x
(
i
)
)
2
w = \mathop {\arg \min }\limits_w \sum\limits_{{\rm{i}} = 1}^m {{{({y^{(i)}} - {w^T}{x^{(i)}})}^2}}
w=wargmini=1∑m(y(i)−wTx(i))2
下面我们假设第i个样本上的误差
(
i
)
=
y
(
i
)
−
w
T
x
(
i
)
{^{(i)}} = {y^{(i)}} - {w^T}{x^{(i)}}
(i)=y(i)−wTx(i) 服从gaussian分布,即
p
(
ϵ
(
i
)
)
=
1
2
π
δ
exp
(
−
(
ϵ
(
i
)
)
2
2
δ
2
)
p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \delta^{2}}\right)
p(ϵ(i))=2πδ1exp(−2δ2(ϵ(i))2)
于是
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
=
1
2
π
δ
exp
(
−
(
y
(
i
)
−
w
T
x
(
i
)
)
2
2
δ
2
)
p\left(y^{(i)} | x^{(i)} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right)
p(y(i)∣x(i);θ)=2πδ1exp(−2δ2(y(i)−wTx(i))2)
由最大似然估计(MLE)
L
(
w
)
=
p
(
y
⃗
∣
X
;
w
)
=
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
=
∏
i
=
1
m
1
2
π
δ
exp
(
−
(
y
(
i
)
−
w
T
x
(
i
)
)
2
2
δ
2
)
\begin{aligned} L(w) &=p(\vec{y} | X ; w) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \end{aligned}
L(w)=p(y∣X;w)=i=1∏mp(y(i)∣x(i);θ)=i=1∏m2πδ1exp(−2δ2(y(i)−wTx(i))2)
取对数有:
l
(
w
)
=
log
L
(
w
)
=
log
∏
i
=
1
m
1
2
π
δ
exp
(
−
(
y
(
i
)
−
w
T
x
(
i
)
)
2
δ
2
)
=
∑
i
=
1
m
log
1
2
π
δ
exp
(
−
(
y
(
i
)
−
w
T
x
(
i
)
)
2
2
δ
2
)
=
m
log
1
2
π
δ
−
1
2
δ
2
∑
i
=
1
m
(
y
(
i
)
−
w
T
x
(
i
)
)
2
\begin{aligned} l(w) &=\log L(w) \\ &=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)}{2 \delta^{2}}\right) \\ &=\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \\ &=m \log \frac{1}{\sqrt{2 \pi} \delta}-\frac{1}{2\delta^{2}}\sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2} \end{aligned}
l(w)=logL(w)=logi=1∏m2πδ1exp(−2δ2(y(i)−wTx(i)))=i=1∑mlog2πδ1exp(−2δ2(y(i)−wTx(i))2)=mlog2πδ1−2δ21i=1∑m(y(i)−wTx(i))2
最大化该似然即为最小化第二项均方损失,即
w
M
L
E
=
arg
min
w
∑
i
=
1
m
(
y
(
i
)
−
w
T
x
(
i
)
)
2
w_{M L E}=\arg \min _{w} \sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}
wMLE=argwmini=1∑m(y(i)−wTx(i))2
上式说明,在假设了数据集的误差服从Gaussian分布的条件下,通过最大似然估计(MLE)最大化似然函数(3)等价于最小化平方损失(1),进一步地我们可以得到一个普遍的结论:最小化经验损失(empirical loss)对应于贝叶斯框架下最大化似然函数。上述分析是在没有假设参数先验的情况下进行的,很容易产生过拟合,下面我们对参数w引入先验分布,以此来降低模型的复杂度。
Ridge regression
我们对参数
w
w
w 引入协方差为$\alpha $ 的Gaussian先验,即
p
(
w
j
)
=
1
2
π
α
exp
(
−
(
w
(
j
)
)
2
2
α
)
p(w_j)=\frac{1}{\sqrt{2 \pi \alpha}} \exp \left(-\frac{\left(w^{(j)}\right)^{2}}{2 \alpha}\right)
p(wj)=2πα1exp(−2α(w(j))2)
由于引入了先验分布,采用最大后验估计(MAP)
L
(
w
)
=
p
(
y
⃗
∣
X
;
w
)
p
(
w
)
=
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
p
(
w
)
=
∏
i
=
1
m
1
2
π
δ
exp
(
−
(
y
(
i
)
−
w
T
x
(
i
)
)
2
2
δ
2
)
∏
j
=
1
n
1
2
π
α
exp
(
−
(
w
(
j
)
)
2
2
α
)
=
∏
i
=
1
m
1
2
π
δ
exp
(
−
(
y
(
i
)
−
w
T
x
(
i
)
)
2
2
δ
2
)
1
2
π
α
exp
(
−
w
T
w
2
α
)
\begin{aligned} L(w) &=p(\vec{y} | X ; w) p(w) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) p(w) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi \delta}} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \prod_{j=1}^{n} \frac{1}{\sqrt{2 \pi \alpha}} \exp \left(-\frac{\left(w^{(j)}\right)^{2}}{2 \alpha}\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \frac{1}{\sqrt{2 \pi \alpha}} \exp \left(-\frac{w^{T} w}{2 \alpha}\right) \end{aligned}
L(w)=p(y∣X;w)p(w)=i=1∏mp(y(i)∣x(i);θ)p(w)=i=1∏m2πδ1exp(−2δ2(y(i)−wTx(i))2)j=1∏n2πα1exp(−2α(w(j))2)=i=1∏m2πδ1exp(−2δ2(y(i)−wTx(i))2)2πα1exp(−2αwTw)
取对数后有
l
(
w
)
=
log
L
(
w
)
=
m
log
1
2
π
δ
+
n
log
1
2
π
α
−
1
2
δ
2
∑
i
=
1
m
(
y
(
i
)
−
w
T
x
(
i
)
)
2
−
1
2
α
w
T
w
⇒
w
M
A
P
Gussian
=
arg
min
w
(
1
2
δ
2
∑
i
=
1
m
(
y
(
i
)
−
w
T
x
(
i
)
)
2
+
1
2
α
w
T
w
)
\begin{aligned} l(w) &=\log L(w) \\ &=m \log \frac{1}{\sqrt{2 \pi} \delta}+n \log \frac{1}{\sqrt{2 \pi \alpha}}-\frac{1}{2\delta^{2}} \sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}-\frac{1}{2\alpha} w^{T} w \\ \Rightarrow & w_{M A P_{\text {Gussian}}}=\arg \min _{w}\left(\frac{1}{2\delta^{2}}\sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}+\frac{1}{2\alpha} w^{T} w\right) \end{aligned}
l(w)⇒=logL(w)=mlog2πδ1+nlog2πα1−2δ21i=1∑m(y(i)−wTx(i))2−2α1wTwwMAPGussian=argwmin(2δ21i=1∑m(y(i)−wTx(i))2+2α1wTw)
等价于
J
(
w
)
=
1
n
∥
y
−
w
T
X
∥
2
+
λ
∥
w
∥
2
J(w)=\frac{1}{n}\left\|y-w^{T} X\right\|_{2}+\lambda\|w\|_{2}
J(w)=n1∥∥y−wTX∥∥2+λ∥w∥2
上式说明,L2正则化等价于对参数引入Gaussian先验分布。ridge regression 并不具有产生稀疏解的能力,也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关,L2正则倾向于综合两者的影响,给影响大的特征赋予高的权重;而L1正则倾向于选择影响较大的参数,而舍弃掉影响较小的那个。实际应用中 L2 正则表现往往会优于 L1正则,但 L1 正则便于产生稀疏模型,便于进行特征选择。
LASSO
Laplace分布
f
(
x
∣
μ
,
b
)
=
1
2
b
exp
(
−
∣
x
−
μ
∣
b
)
f(x | \mu, b)=\frac{1}{2 b} \exp \left(-\frac{|x-\mu|}{b}\right)
f(x∣μ,b)=2b1exp(−b∣x−μ∣)
同理可以推导出
w
M
A
P
L
a
p
a
c
e
=
arg
min
w
(
1
2
δ
2
∑
i
=
1
m
(
y
(
i
)
−
w
T
x
(
i
)
)
2
+
1
2
b
2
∥
w
∥
1
)
w_{M A P_{L a p a c e}}=\arg \min _{w}\left(\frac{1}{2\delta^{2}} \sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}+\frac{1}{2b^{2}}\|w\|_{1}\right)
wMAPLapace=argwmin(2δ21i=1∑m(y(i)−wTx(i))2+2b21∥w∥1)
即L1正则化等价于对参数引入Laplace先验分布
该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题,不具有解析解,它的优良性质是能产生稀疏性,导致 w中许多项变成零。
Summary
正则化参数等价于对参数引入 先验分布,使得 模型复杂度 变小(缩小解空间),对于噪声以及outliers的鲁棒性增强(泛化能力)。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中 正则化项 对应后验估计中的 先验信息 ,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计的形式。
参考http://charleshm.github.io/2016/03/Regularized-Regression/#fn:5