机器学习: 正则化

一、形式与作用

1、形式

机器学习,深度学习损失函数一般记为 L = 1 N ∑ i = 0 N l ( f ( x i ; W ) , y i ) L = \frac{1}{N}\sum_{i=0}^Nl(f(x_i;W),y_i) L=N1i=0Nl(f(xi;W),yi)
其中, N N N为样本数, l l l为损失函数, f f f为模型, W W W为模型参数。加入正则项的损失函数可记为:
L = 1 N ∑ i = 0 N l ( f ( x i ; W ) , y i ) ) + λ Ω ( f ) L = \frac{1}{N}\sum_{i=0}^Nl(f(x_i;W),y_i)) + \lambda \Omega(f) L=N1i=0Nl(f(xi;W),yi))+λΩ(f)
其中, Ω ( f ) \Omega(f) Ω(f)为模型的复杂度, λ Ω ( f ) \lambda \Omega(f) λΩ(f)为正则项, 也叫惩罚项。 λ \lambda λ为超参数,控制惩罚力度。

2、作用

正则项的重要作用是防止模型对训练数据的过拟合。如下图:
在这里插入图片描述
其中蓝线表示的是未加正则项的模型,其对训练数据(蓝色圆圈)过拟合,遇到测试数据(绿色方块)表现非常不好,而绿线为加入正则项后的模型,表现较好。

二、正则项为何起作用

1、几何直观理解

过拟合的重要性质是拟合函数曲线导数绝对值非常大. 因为过拟合时,函数需要兼顾每一个样本点,因此需要剧烈变化。如上图中的蓝线。而常见的正则项,如一范数,二范数,他们都有减小模型参数绝对值的作用,这就使得导数绝对值变小,使得拟合函数曲线更平滑,也就能在一定程度减少过拟合。

2、假设空间理解

所有的机器学习的学习过程都归结为从假设空间 H \mathcal{H} H中选择最优的模型 f ^ \hat{f} f^
f ^ = a r g   min ⁡ f ∈ H 1 N ∑ i = 1 n l ( y i , f ( x i ; W ) ) \hat{f}=arg \ \min_{f \in \mathcal{H}}\frac{1}{N}\sum_{i=1}^nl(y_i, f(x_i;W)) f^=arg fHminN1i=1nl(yi,f(xi;W))
假设空间越大,可供选择的机会就越多,但是选到 E i n E_{in} Ein小, E o u t E_{out} Eout大的模型的可能性就越大,也就是过拟合风险就越大。我们通过将模型选择的空间约束到假设空间的一个子空间,这样就可以降低过拟合风险。如何约束? 即解带约束的优化问题。用二范数举例:
f ^ = a r g   min ⁡ f ∈ H 1 N ∑ i = 1 n l ( y i , f ( x i ; W ) ) s . t . ∣ ∣ W ∣ ∣ 2 ≤ r \hat{f}=arg \ \min_{f \in \mathcal{H}}\frac{1}{N}\sum_{i=1}^nl(y_i, f(x_i;W)) \\ s.t. ||W||^2 \le r f^=arg fHminN1i=1nl(yi,f(xi;W))s.t.W2r

其将模型的选择空间限制在了半径小于 r r r的超球体中。这样就减小了模型选择空间,使得过拟合风险得以降低。
在这里插入图片描述
那么如何解这个式子?根据拉格朗日乘子法,这等价于解:
f ^ = a r g   min ⁡ f ∈ H 1 N ∑ i = 1 n l ( y i , f ( x i ; W ) ) + γ ( ∣ ∣ W ∣ ∣ 2 − r ) \begin{aligned} \hat{f}&=arg \ \min_{f \in \mathcal{H}}\frac{1}{N}\sum_{i=1}^nl(y_i, f(x_i;W)) + \gamma (||W||^2 -r) \end{aligned} f^=arg fHminN1i=1nl(yi,f(xi;W))+γ(W2r)
其中 γ ≥ 0 \gamma \ge 0 γ0, 很明显,求解上式等价于求解下式.
f ^ = a r g   min ⁡ f ∈ H 1 N ∑ i = 0 N l ( y i , f ( x i ; W ) ) + λ ∣ ∣ W ∣ ∣ 2 . \hat{f} = arg \ \min_{f \in \mathcal{H}}\frac{1}{N}\sum_{i=0}^Nl(y_i,f(x_i;W))+ \lambda ||W||^2. f^=arg fHminN1i=0Nl(yi,f(xi;W))+λW2.
其中 λ \lambda λ为超参数, 此即优化带正则项的损失函数。

因此加入正则项相当于约束了假设空间 H \mathcal{H} H. 从而使得选择到坏的模型的机会降低,也就起到了防止过拟合的作用。直观来说, λ \lambda λ越大,约束也就越强。

3、贝叶斯角度理解

(1) 噪声服从高斯分布,无先验。
从贝叶斯角度,对该类问题,我们是要建模一个概率分布,因此我们需要优化如下极大似然问题:
a r g   max ⁡ θ P ( Y , X ∣ θ ) arg \ \max_{\theta}P(Y, X| \theta) arg θmaxP(Y,Xθ)
其中 θ \theta θ是希望求出的参数,真正的 θ \theta θ只有上帝知道,就好像最好的模型 f ∗ f^* f只有上帝知道,我们所求的 f ^ \hat{f} f^只能去逼近它一样。

对于每一个样本 { x i , y i } \{x_i, y_i\} {xi,yi} x i x_i xi的真实标签 Y Y Y是一个随机变量,均值为: f ( x i , θ ) f(x_i, \theta) f(xi,θ)。由于产生噪声的原因很多,根据中心极限定理,我们可以假定噪声服从高斯分布。即 Y − f ( x i , θ ) ∼ N ( 0 , σ 2 ) → Y ∼ N ( f ( x i , θ ) , σ 2 ) Y - f(x_i, \theta) \sim N(0, \sigma^2) \to Y \sim N(f(x_i,\theta), \sigma^2) Yf(xi,θ)N(0,σ2)YN(f(xi,θ),σ2). 因此极大似然可以写为:
P ( Y , X ∣ θ ) = Π i = 1 N 1 σ 2 π e x p { − 1 2 σ 2 ( y i − f ( x i , θ ) ) 2 } P(Y,X|\theta) = \Pi_{i=1}^{N}\frac{1}{\sigma\sqrt{2\pi}}exp\{-\frac{1}{2\sigma^2}(y_i-f(x_i,\theta))^2\} P(Y,Xθ)=Πi=1Nσ2π 1exp{2σ21(yif(xi,θ))2}
最大化该极大似然: 取 l o g log log,再取负号,转而等价为如下极小化问题:
a r g   min ⁡ θ ∑ i = 1 N ( y i − f ( x i , θ ) ) 2 arg \ \min_{\theta}\sum_{i=1}^N(y_i-f(x_i,\theta))^2 arg θmini=1N(yif(xi,θ))2
此即最小二乘问题。因此假定噪声为高斯噪声,单一的平方和误差函数是最大似然函数的一个自然结果

(2) 噪声服从高斯分布,参数 θ \theta θ有先验。
贝叶斯认为,参数也是一个随机变量,也服从一个分布,进而加入参数分布的先验,我们极大化如下后验概率:
a r g   max ⁡ θ P ( Y , X ∣ θ ) f ( θ ) = a r g min ⁡ θ − l o g P ( Y , X ∣ θ ) − l o g f ( θ ) = a r g min ⁡ θ ∑ i = 1 N ( y i − f ( x i , θ ) ) 2 − l o g f ( θ ) \begin{aligned} arg \ \max_{\theta}P(Y,X|\theta)f(\theta) &= arg \min_{\theta}-logP(Y,X|\theta)-logf(\theta) \\ &= arg \min_{\theta} \sum_{i=1}^N(y_i-f(x_i,\theta))^2-logf(\theta) \end{aligned} arg θmaxP(Y,Xθ)f(θ)=argθminlogP(Y,Xθ)logf(θ)=argθmini=1N(yif(xi,θ))2logf(θ)
其中 f ( θ ) f(\theta) f(θ)是参数的先验分布,如果

  • f ( θ ) f(\theta) f(θ)服从(标准)正态分布的时候,上式对应了L2正则化。
  • f ( θ ) f(\theta) f(θ)服从拉普拉斯分布的时候,上式对应了L1正则化。

因此,从贝叶斯角度,正则化项相当于加入了参数的先验分布。这也相当于给了参数一个限制,因此起到了防止过拟合的作用。

4、从Lipschitz约束角度理解

[3] 中从Lipschitz约束推导出了深度学习模型中L2范数的意义,直观说明了其为何能够增强模型的泛化能力。

三、各类正则项性质

这里主要总结常用的 L 1 L1 L1 L 2 L2 L2正则项。
(1) L1正则项: 将模型空间限制在一个超方体中。目标函数测地线大概率会与超方体顶点相交。在顶点时,其中一些参数为为0,因此使得参数具有稀疏性
(2) L2正则项: 将模型空间限制在一个超球体中, 不会产生稀疏性,但是所有的参数都会接近0。
L1在特征选择时非常有用。
在这里插入图片描述

四、参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值