A proper initialization method should avoid reducing or magnifying the magnitudes of input signals exponentially.
合适的初始化方法应当避免指数地减小或增大输入信号的大小。
因此,为了控制输出信号的大小,初始化权值的方差应当相应的减小,这就是Xavier和MSRA参数初始化方式的由来。那么为什么要控制输出信号的大小呢?个人的猜测是人们发现性能较好的神经网络的输入与输出大小类似,只不过分布不同,所以猜测类似这样的权值更接近全局最优。