L2 normalization 为什么能够降低过拟合?
假设 cost function 为:
J(w,b)=1m∑ni=0(yi^−yi)2+λ2m∑Ll=1||w[l]||2F
其中:
||w[l]||2F=∑n[l−1]i=1∑n[l]j=1||wij||2
假定激活函数使用: g(z)=tanh(z)
若使成本函数最小化,若 λ 变大,则, w[l] 变小,那么, z[l]=w[l]a[l−1]+b[l] 变小
对于
tanh(z)
函数,当
z
很小时,
若每层的激活函数都是线性函数,那么整个神经网络学习到的依然是线性函数。
这也就解释了,为什么正则化能够降低过拟合。