避免过拟合的正则化方法


旨在减少泛化误差。

Early Stopping

早停法
在这里插入图片描述
在这里插入图片描述

  • 早停法(Early Stopping)常用于确定合适的训练周期数(epoch)

    • 训练周期数是超参数
    • 过少的训练周期,欠拟合
    • 过多的训练周期,过拟合
  • 早停法步骤:

    • 划分训练集和验证集
    • 每个(或多个)epoch结束后,在验证集上计算测试误差;如果在验证集上发现测试误差上升,则停止训练
    • 将停止之后的权重作为网络的最终参数

Dropout

在这里插入图片描述
训练阶段:以概率𝑝随机移除网络中的神经元结点以及与之相连的所有输入和输出边

测试阶段: 所有神经元处于激活态,但用系数(1 − 𝑝) 减少激活值来补偿训练时丢弃的激活

使用使用inverted dropout

  • 在前向传播中,输入被以概率为p的几率置为0;否则被乘以 1 1 − p \frac{1}{1-p} 1p1
  • 在反向传播中,被丢弃单元的梯度被置为0;其他梯度被乘以同样的 1 1 − p \frac{1}{1-p} 1p1
  • 前向传播哪些神经元被dropout应该被记录下来

训练阶段:直接将dropout后的网络响应(activation)乘以 1 1 − p \frac{1}{1-p} 1p1;在测试阶段不做调整。

Dropout可看作一种集成学习( ensemble learning)
在这里插入图片描述
在这里插入图片描述

  • 使用一个mini-batch去训练一个网络
  • 一些网络的参数被共享

ℓ 2 \ell2 2范数正则化( ℓ 2 \ell2 2 Regularization)

ℓ 1 \ell1 1范数和 ℓ 2 \ell2 2是最常用的正则化形式。它们在损失函数上增加了正则化项来更新一般的代价函数。

c o s t   f u n c t i o n   =   L o s s ( s a y , b i n a r y   c r o s s   e n t r o y )   +   R e g u l a r i z a t i o n   t e r m cost\ function\ = \ Loss(say, binary\ cross\ entroy)\ + \ Regularization\ term cost function = Loss(say,binary cross entroy) + Regularization term

增加正则化项后,权重矩阵中的值将减小,因为认为具有较小值的权重矩阵的神经网络会是更简单的模型。因此,这将减小过拟合.

对于 ℓ 2 \ell2 2范数,
c o s t   f u n c t i o n = L o s s + λ 2 m ∑ ∥ w ∥ 2 cost\ function=Loss+\frac{\lambda}{2m}\sum\parallel w \parallel^2 cost function=Loss+2mλw2

λ \lambda λ是正则化参数。它是一个超参数。

ℓ 2 \ell2 2正则化也称为权重衰减 (weight decay) 因为它将迫使权重向零衰减(但不是零)

W   : = W − ( λ / m ) × W − l e a r n i n g   r a t e × d J ( W ) / d W W\ :=W-(\lambda/m)\times W-learning\ rate\times dJ(W)/dW W :=W(λ/m)×Wlearning rate×dJ(W)/dW

权值衰减是一直以来经常被使用的一种抑制过拟合的方法。

该方法通过在学习的过程中对大的权重进行惩罚,来抑制过拟合。

ℓ 1 \ell1 1范数正则化( ℓ 1 \ell1 1 Regularization)

对于 ℓ 1 \ell1 1范数,
c o s t   f u n c t i o n = L o s s + λ 2 m ∑ ∥ w ∥ cost\ function = Loss+\frac{\lambda}{2m}\sum\parallel w \parallel cost function=Loss+2mλw

这里,惩罚的是权重的绝对值。权重可以减小到0。这对压缩模型是有用的。

ℓ 2 \ell2 2范数正则化与权重衰减

一个需要被最小化的新的损失函数:

L ′ ( w ) = L ( w ) + λ 2 m ∑ ∥ w ∥ 2 L'(w)= L(w)+\frac{\lambda}{2m}\sum\parallel w \parallel^2 L(w)=L(w)+2mλw2

梯度:
∂ L ′ ∂ w = ∂ L ∂ w + λ w \frac{\partial L'}{\partial w}=\frac{\partial L}{\partial w}+\lambda w wL=wL+λw

梯度下降:
w t + 1 → w t − η ∂ L ′ ∂ w = w t − η ( ∂ L ∂ w + λ w t ) w^{t+1}\rightarrow w^t -\eta \frac{\partial L'}{\partial w}=w^t -\eta(\frac{\partial L}{\partial w}+\lambda w^t) wt+1wtηwL=wtη(wL+λwt)
= ( 1 − η λ ) w t − η ∂ L ∂ w =(1-\eta \lambda)w^t-\eta \frac{\partial L}{\partial w} =(1ηλ)wtηwL

可以看到, ℓ 2 \ell2 2范数正则化对权重有衰减作用。

数据增强

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值