Xavier初始化的目的:(假设使用sigmoid函数作激活函数)
1。若parameter初始值小,传递过程中方差会逐渐趋近与0,此时Next Layer的输入值也会变小,导致经过sigmoid函数时,值的范围在0附近,造成非线性消失。
2。若parameter初始值大,传递过程中方差会迅速增大,此时Next Layer的输入值也会明显增大,导致经过sigmoid函数时,值的范围依旧在0附近,反向传播时,会出现梯度消失的现象。
Xavier初始化的目的:(假设使用sigmoid函数作激活函数)
1。若parameter初始值小,传递过程中方差会逐渐趋近与0,此时Next Layer的输入值也会变小,导致经过sigmoid函数时,值的范围在0附近,造成非线性消失。
2。若parameter初始值大,传递过程中方差会迅速增大,此时Next Layer的输入值也会明显增大,导致经过sigmoid函数时,值的范围依旧在0附近,反向传播时,会出现梯度消失的现象。