正则化项
正则化是一种防止模型过拟合的方法,它常被添加在损失函数中。
L2正则化项
m
i
n
J
(
W
,
b
)
=
1
m
∑
i
=
1
m
L
(
y
^
i
,
y
i
)
+
λ
2
m
∣
∣
W
∣
∣
2
2
minJ(W,b)=\frac{1}{m}\sum^m_{i=1}L(\widehat{y}^i,{y}^i)+\frac{\lambda}{2m}||W||^2_2
minJ(W,b)=m1i=1∑mL(y
i,yi)+2mλ∣∣W∣∣22
在上式公式中,
λ
2
m
∣
∣
W
∣
∣
2
2
\frac{\lambda}{2m}||W||^2_2
2mλ∣∣W∣∣22就是正则化项,
λ
\lambda
λ表示正则化项的超参数,也可以间接理解为学习率。
L2正则化也可以理解为一种权重衰减的方法。
对于逻辑回归模型,W作为一种参数(W的维度取决于特征的维度),那么L2正则化项可以表示为:
∣
∣
W
∣
∣
2
2
=
∑
j
=
1
d
i
m
e
n
s
i
o
n
W
j
2
||W||_2^2=\sum^{dimension}_{j=1}W^2_j
∣∣W∣∣22=j=1∑dimensionWj2
对于具有多层的神经网络模型,层与层之间存在多个参数矩阵。每层W的矩阵可以表达为
(
n
[
l
]
,
n
[
l
−
1
]
)
(n^{[l]},n^{[l-1]})
(n[l],n[l−1]),在等式中,
l
l
l表示第
l
l
l层隐层,
n
[
l
]
n^{[l]}
n[l]表示第
l
l
l层隐层的神经元个数,所以,L2正则化项可以表示为:
λ
2
m
∑
l
=
1
L
∣
∣
W
l
∣
∣
2
2
∣
∣
W
l
∣
∣
2
2
=
∑
i
=
1
n
∣
l
−
1
∣
∑
j
=
1
n
∣
l
∣
(
W
i
j
l
)
2
\frac{\lambda}{2m}\sum^L_{l=1}||W^l||^2_2 \\ ||W^l||^2_2=\sum^{n^{|l-1|}}_{i=1} \sum^{n^{|l|}}_{j=1}(W_{ij}^l)^2
2mλl=1∑L∣∣Wl∣∣22∣∣Wl∣∣22=i=1∑n∣l−1∣j=1∑n∣l∣(Wijl)2
L1正则化项
m
i
n
J
(
W
,
b
)
=
1
m
∑
i
=
1
m
L
(
y
^
i
,
y
i
)
+
λ
2
m
∣
∣
W
l
∣
∣
∣
∣
W
l
∣
∣
=
∑
i
=
1
n
∣
l
−
1
∣
∑
j
=
1
n
∣
l
∣
W
i
j
l
minJ(W,b)=\frac{1}{m}\sum^m_{i=1}L(\widehat{y}^i,{y}^i)+\frac{\lambda}{2m}||W^l||\\ ||W^l||=\sum^{n^{|l-1|}}_{i=1}\sum^{n^{|l|}}_{j=1}W^l_{ij}
minJ(W,b)=m1i=1∑mL(y
i,yi)+2mλ∣∣Wl∣∣∣∣Wl∣∣=i=1∑n∣l−1∣j=1∑n∣l∣Wijl
如果我们采用L1正则化,那么参数W会变得很稀疏。