beta和gama都是神经网络训练出来的,他们的取值并不会影响原神经网络的准确性,因为是线性变换。这种处理可以加快训练速度,使得网络训练避开很多由模型选取人为引入的局部极小值。输入越稳定,训练越快越准。输入不稳定,训练结果乱跳,于是就减小学习率,减小学习率作用对输入数据的变化大效果并不明显,但是减小学习率会使得训练速度变慢。而归一化后再输入下一层可以保证有每一次都有较大的学习率。 参考来源 https://www.bilibili.com/video/BV1fW411T7GP?p=2