Xavier[发音 ‘zeɪvɪr]初始化方法是深度学习中比较常用和有效的一种权重初始化方法,其名字是以其发明者命名的。
它的基本设计原则是为了使网络中的信息更好地流动,网络各层激活值及状态梯度的方差应尽量保持不变。
根据一些前提假设以及概率统计公式推导出满足上述设计原则的权重W应服从
又由于实际当中输入、输出的个数n往往不相等,为了综合考虑,将W的方差初始化为
当W用对称区间的均匀分布生成时,根据
(b−a)212=2ni+ni+1,b=−a
(
b
−
a
)
2
12
=
2
n
i
+
n
i
+
1
,
b
=
−
a
求出的分布参数的范围就是
Xavier初始化方法的不足之处:
因为Xavier的推导过程是基于几个假设的,其中一个是是激活值关于0对称,这个不适用于sigmoid函数和ReLU函数。
参考资料:
1. 深度学习——Xavier初始化方法- CSDN博客
2. 深度学习之参数初始化(一)——Xavier初始化