引入正则化
在深度学习背景下,大多数正则化策略都会对估计进行正则化。估计的正则化以偏差的增加换取方差的减少。一个有效的正则化是有利的权衡,也就是能显著减少方差而不过度增加偏差。
参数范数惩罚
许多正则化方法通过对目标函数 J J J添加一个参数范数惩罚 Ω ( θ ) \Omega(\theta) Ω(θ),限制模型的学习能力。正则化后的目标函数记为 J ~ \tilde{J} J~
J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) \tilde{J}(\theta;X,y)= J(\theta;X,y)+\alpha\Omega(\theta) J~(θ;X,y)=J(θ;X,y)+αΩ(θ)
通常,在神经网络中只对每一层仿射变换的_权重_做惩罚而不对偏置做惩罚。精确拟合偏置所需的数据通常比拟合权重少得多。正则化偏置参数可能会导致明显的欠拟合。
在神经网络中,为了减少搜索空间,通常在所有层使用相同的权重衰减。
L2参数正则化
L2正则化通过向目标函数添加一个正则项 Ω ( θ ) = 1 2 ∣ ∣ w ∣ ∣ 2 2 \Omega(\theta)=\frac{1}{2}||w||_2^2 Ω(θ)=21∣∣w∣∣22,使权重更加接近原点,又称为岭回归或Tikhonov正则。
假定模型没有偏置参数,因此