-通过正则化消除过度拟合,下面为公式介绍和解释
- J(w,b)= 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) + λ 2 m ∣ ∣ w ∣ ∣ 2 2 \frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||{^2_2} m1∑i=1mL(y^(i),y(i))+2mλ∣∣w∣∣22
-
L
2
L_2
L2正则化:
∣
∣
w
∣
∣
2
2
=
∑
j
=
1
n
x
w
j
2
=
w
T
w
||w||{^2_2}=\sum_{j=1}^{n_x} {w_j}^2=w^Tw
∣∣w∣∣22=∑j=1nxwj2=wTw,
∣ ∣ w ∣ ∣ 2 2 ||w||{^2_2} ∣∣w∣∣22被称为参数W的 L 2 L_2 L2范数 - 只对W进行正则化是因为W是一个高维参数,基本上包含了所有维度
- λ \lambda λ是正则化参数,应该较大,避免过拟合,即避免数据权值矩阵过大
- 放在多层网络中变成了“
+
λ
2
m
∑
l
=
1
L
∣
∣
w
[
l
]
∣
∣
F
2
+\frac{\lambda}{2m}\sum_{l=1}^{L}||w^{[l]}||{^2_F}
+2mλ∑l=1L∣∣w[l]∣∣F2”
L为层
∣ ∣ W [ l ] ∣ ∣ F 2 = ∑ i = 1 n [ l − 1 ] ∑ j = 1 n [ l ] ( w i j [ l ] ) 2 w : ( n [ l − 1 ] , n [ l ] ) ||W^{[l]}||{^2_F}=\sum_{i=1}^{n^{[l-1]}}\sum_{j=1}^{n^{[l]}}(w{^{[l]}_{ij}})^2\qquad w:(n^{[l-1]},n^{[l]}) ∣∣W[l]∣∣F2=∑i=1n[l−1]∑j=1n[l](wij[l])2w:(n[l−1],n[l])
“Frobenius norm” 弗罗贝尼乌斯范数