深度学习正则化

(1)通过把一部分不重要的复杂信息损失掉,以此来降低拟合难度以及拟合风险,从而加速模型的收敛;

(2)Normalization就是让分布稳定下来(降低各维度数据的方差),Transformer加scale也是为了方差稳定;

(3)不同的正则化方法的区别只是操作的信息维度不同,即选择损失信息的维度不同;

(4)BN,它选择在NHW维度进行归一化,而channel维度的信息原封不动,因为可以认为在cv应用场景中,数据不同channel中的信息重要,不同channel来源自不同的卷积核,所以不同的channel很重要。

(5)在NLP中不同batch样本的信息关联性不大,而且由于不同的句子长度不同,强行归一化会损失不同样本间的差异信息,所以就没有在batch维度进行归一化,而是选择LN,只考虑句子内部维度的归一化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值