Weight Constraint
在训练过程中,weight constraint(比如L2 norm,max norm)能保证学到的权重较小,和weight penalty效果等价。如果权重较大,则说明模型从异常值里学到了噪音,容易导致模型过拟合、不稳定。在loss中加入weight penalty,当weight很大时,会增加penalty,loss也就变大,但是,weight penalty不能保证权重一定很小,也有可能较大。而使用weight constraint,是在训练过程中,不断检查权重大小是否超过预先确定的一个阈值,如果超过,就rescale到阈值以下或者保持在一个范围之内。因此,weight constraint保证所有学到的权重都很小。
weight constraint和其他正则化方法(比如dropout)一起用,能明显提高模型的泛化性。
weight constraint的选择:
- unit norm:vector norm = 1
- maximum norm:限制vector norm的最大值
- min-max norm:限制vector norm的最大值和最小值
- non-nagative weights
使用weight constraint的小技巧:
- 输入数据归一化/标准化
- learning rate可以设置得较大
Normalization
什么是Internal Covariate Shift?
深度神经网络涉及到多层的叠加,每一层的参数更新会