参考:一文搞懂激活函数(Sigmoid/ReLU/LeakyReLU/PReLU/ELU) 要点: 疑问的地方: 输出的分布是零均值的,可以加快训练速度。 激活函数是单侧饱和的,可以更好的收敛 为什么????