过小初始化和过大初始化易造成梯度消失和梯度爆炸
1、初始化为0或一个常数,容易导致每个神经元学到相同特征。
2、随机初始化,随着网络层数加深,其激活函数输出趋近0;
3、BatchNorm归一化,其参数分布相对均匀,具有正则化效果。
HE初始化等
过小初始化和过大初始化易造成梯度消失和梯度爆炸
1、初始化为0或一个常数,容易导致每个神经元学到相同特征。
2、随机初始化,随着网络层数加深,其激活函数输出趋近0;
3、BatchNorm归一化,其参数分布相对均匀,具有正则化效果。
HE初始化等