设计深度网络,对网络参数初始化非常重要。其中的随机初始化,在网络训练中十分常用。记录一下Glorot和He初始化的优缺点,以及Normal和Uniform的优缺点
常用的有Glorot和He Kaiming分别提出的Xavier和MSRA,如果细分有对应的Normal和Uniform两种不同的分布。
Glorot的优点是保持输入和输出的方差一致,然而它的假设是激活函数是线性,且以0位中心对称。因此,并不适合以Relu为激活函数的网络。
He的优点是放松了上述两个假设的限制,更容易收敛。
此外,对于Normal初始化来说,它的值域没有限制,理论上是从负无穷到正无穷,因此,结果更多样,由此带来的问题是有可能生成绝对值很大的离群点,不利于优化。
而对于uniform来说,权值结果被限定在了规定的范围内,会更稳定一些。
更多讨论见下面链接:
Xavier Glorot参数初始化: 理解训练Deep DNN的难点
浅谈Transformer的初始化、参数化与标准化 https://kexue.fm/archives/8620/comment-page-1