Xavier初始化,也称为Glorot初始化,是一种在训练深度神经网络时用于初始化网络权重的策略。它的核心思想是在网络的每一层保持前向传播和反向传播时的激活值和梯度的方差尽可能一致,以避免梯度消失或梯度爆炸的问题。这种方法特别适用于激活函数是线性的情况下,比如tanh函数。
然而,Xavier初始化并不适用于所有类型的激活函数。例如,它不适用于ReLU激活函数,因为ReLU函数在正半轴是线性的,在负半轴是常数,这破坏了Xavier初始化的假设。针对ReLU激活函数,通常使用Kaiming初始化(也称为He初始化),它对Xavier初始化进行了修改,以适应ReLU的特性.