避免过拟合的正则化方法
旨在减少泛化误差。
Early Stopping
早停法
-
早停法(Early Stopping)常用于确定合适的训练周期数(epoch)
- 训练周期数是超参数
- 过少的训练周期,欠拟合
- 过多的训练周期,过拟合
-
早停法步骤:
- 划分训练集和验证集
- 每个(或多个)epoch结束后,在验证集上计算测试误差;如果在验证集上发现测试误差上升,则停止训练
- 将停止之后的权重作为网络的最终参数
Dropout
训练阶段:以概率𝑝随机移除网络中的神经元结点以及与之相连的所有输入和输出边
测试阶段: 所有神经元处于激活态,但用系数(1 − 𝑝) 减少激活值来补偿训练时丢弃的激活
使用使用inverted dropout
- 在前向传播中,输入被以概率为p的几率置为0;否则被乘以 1 1 − p \frac{1}{1-p} 1−p1
- 在反向传播中,被丢弃单元的梯度被置为0;其他梯度被乘以同样的 1 1 − p \frac{1}{1-p} 1−p1
- 前向传播哪些神经元被dropout应该被记录下来
训练阶段:直接将dropout后的网络响应(activation)乘以 1 1 − p \frac{1}{1-p} 1−p1;在测试阶段不做调整。
Dropout可看作一种集成学习( ensemble learning)
- 使用一个mini-batch去训练一个网络
- 一些网络的参数被共享
ℓ 2 \ell2 ℓ2范数正则化( ℓ 2 \ell2 ℓ2 Regularization)
ℓ 1 \ell1 ℓ1范数和 ℓ 2 \ell2 ℓ2是最常用的正则化形式。它们在损失函数上增加了正则化项来更新一般的代价函数。
c o s t f u n c t i o n = L o s s ( s a y , b i n a r y c r o s s e n t r o y ) + R e g u l a r i z a t i o n t e r m cost\ function\ = \ Loss(say, binary\ cross\ entroy)\ + \ Regularization\ term cost function = Loss(say,binary cross entroy) + Regularization term
增加正则化项后,权重矩阵中的值将减小,因为认为具有较小值的权重矩阵的神经网络会是更简单的模型。因此,这将减小过拟合.
对于
ℓ
2
\ell2
ℓ2范数,
c
o
s
t
f
u
n
c
t
i
o
n
=
L
o
s
s
+
λ
2
m
∑
∥
w
∥
2
cost\ function=Loss+\frac{\lambda}{2m}\sum\parallel w \parallel^2
cost function=Loss+2mλ∑∥w∥2
λ \lambda λ是正则化参数。它是一个超参数。
ℓ 2 \ell2 ℓ2正则化也称为权重衰减 (weight decay) 因为它将迫使权重向零衰减(但不是零)
W : = W − ( λ / m ) × W − l e a r n i n g r a t e × d J ( W ) / d W W\ :=W-(\lambda/m)\times W-learning\ rate\times dJ(W)/dW W :=W−(λ/m)×W−learning rate×dJ(W)/dW
权值衰减是一直以来经常被使用的一种抑制过拟合的方法。
该方法通过在学习的过程中对大的权重进行惩罚,来抑制过拟合。
ℓ 1 \ell1 ℓ1范数正则化( ℓ 1 \ell1 ℓ1 Regularization)
对于
ℓ
1
\ell1
ℓ1范数,
c
o
s
t
f
u
n
c
t
i
o
n
=
L
o
s
s
+
λ
2
m
∑
∥
w
∥
cost\ function = Loss+\frac{\lambda}{2m}\sum\parallel w \parallel
cost function=Loss+2mλ∑∥w∥
这里,惩罚的是权重的绝对值。权重可以减小到0。这对压缩模型是有用的。
ℓ 2 \ell2 ℓ2范数正则化与权重衰减
一个需要被最小化的新的损失函数:
L ′ ( w ) = L ( w ) + λ 2 m ∑ ∥ w ∥ 2 L'(w)= L(w)+\frac{\lambda}{2m}\sum\parallel w \parallel^2 L′(w)=L(w)+2mλ∑∥w∥2
梯度:
∂
L
′
∂
w
=
∂
L
∂
w
+
λ
w
\frac{\partial L'}{\partial w}=\frac{\partial L}{\partial w}+\lambda w
∂w∂L′=∂w∂L+λw
梯度下降:
w
t
+
1
→
w
t
−
η
∂
L
′
∂
w
=
w
t
−
η
(
∂
L
∂
w
+
λ
w
t
)
w^{t+1}\rightarrow w^t -\eta \frac{\partial L'}{\partial w}=w^t -\eta(\frac{\partial L}{\partial w}+\lambda w^t)
wt+1→wt−η∂w∂L′=wt−η(∂w∂L+λwt)
=
(
1
−
η
λ
)
w
t
−
η
∂
L
∂
w
=(1-\eta \lambda)w^t-\eta \frac{\partial L}{\partial w}
=(1−ηλ)wt−η∂w∂L
可以看到, ℓ 2 \ell2 ℓ2范数正则化对权重有衰减作用。
数据增强
略