神经网络参数初始化

设计深度网络,对网络参数初始化非常重要。其中的随机初始化,在网络训练中十分常用。记录一下Glorot和He初始化的优缺点,以及Normal和Uniform的优缺点

常用的有Glorot和He Kaiming分别提出的Xavier和MSRA,如果细分有对应的Normal和Uniform两种不同的分布。

Glorot的优点是保持输入和输出的方差一致,然而它的假设是激活函数是线性,且以0位中心对称。因此,并不适合以Relu为激活函数的网络。
He的优点是放松了上述两个假设的限制,更容易收敛。

此外,对于Normal初始化来说,它的值域没有限制,理论上是从负无穷到正无穷,因此,结果更多样,由此带来的问题是有可能生成绝对值很大的离群点,不利于优化。
而对于uniform来说,权值结果被限定在了规定的范围内,会更稳定一些。

更多讨论见下面链接:
Xavier Glorot参数初始化: 理解训练Deep DNN的难点

浅谈Transformer的初始化、参数化与标准化 https://kexue.fm/archives/8620/comment-page-1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值