神经网络的偏差与方差处理
模型偏差与方差实例
测试集 | 验证集 | 模型问题 |
---|---|---|
高误差 | 高误差 | 模型或数据处理错误 |
底误差 | 高误差 | 方差过大,过拟合 |
高误差 | 底误差 | 偏差过大,欠拟合 |
偏差与方差处理
正则化 regularization
在成本函数中添加参数
λ
/
2
m
∗
∥
w
∥
2
2
\lambda/2m*\begin{Vmatrix}w \end{Vmatrix}_2^2
λ/2m∗∥∥w∥∥22
以上是常用的L2正则化,除此外,还有L1正则化或者对b参数正则化等。
特别的,L1正则经常会得到稀疏矩阵,但并未因稀疏而降低内存使用。
λ
=
r
e
g
u
l
a
r
i
z
a
t
i
o
n
_
p
a
r
a
m
e
t
e
r
\lambda = regularization\_parameter
λ=regularization_parameter
对于神经网络中的二维 W 矩阵,我们用弗罗贝尼乌斯范数代替L2范数即正则参数表达为:
λ
/
2
m
∗
∥
w
∥
F
2
\lambda/2m*\begin{Vmatrix}w \end{Vmatrix}_F^2
λ/2m∗∥∥w∥∥F2
后令
d
w
[
L
]
=
δ
J
/
δ
w
+
λ
/
m
w
[
L
]
dw^{[L]}=\delta J/\delta w +\lambda/m w^{[L]}
dw[L]=δJ/δw+λ/mw[L]
得到新的梯度下降公式:
w
[
L
]
:
=
w
[
L
]
−
α
d
w
[
L
]
w^{[L]}:=w^{[L]}-\alpha dw^{[L]}
w[L]:=w[L]−αdw[L]
:
=
(
1
−
α
λ
/
m
)
w
[
L
]
−
α
δ
J
/
δ
w
:=(1-\alpha \lambda/m)w^{[L]} -\alpha \delta J/\delta w
:=(1−αλ/m)w[L]−αδJ/δw