(1)通过把一部分不重要的复杂信息损失掉,以此来降低拟合难度以及拟合风险,从而加速模型的收敛;
(2)Normalization就是让分布稳定下来(降低各维度数据的方差),Transformer加scale也是为了方差稳定;
(3)不同的正则化方法的区别只是操作的信息维度不同,即选择损失信息的维度不同;
(4)BN,它选择在NHW维度进行归一化,而channel维度的信息原封不动,因为可以认为在cv应用场景中,数据不同channel中的信息重要,不同channel来源自不同的卷积核,所以不同的channel很重要。
(5)在NLP中不同batch样本的信息关联性不大,而且由于不同的句子长度不同,强行归一化会损失不同样本间的差异信息,所以就没有在batch维度进行归一化,而是选择LN,只考虑句子内部维度的归一化。