Batch Norm和Layer Norm的区别主要是在归一化计算的时候其计算方向不同,借用知乎上的一张图做理解。 转载自:batchNormalization与layerNormalization的区别 - 知乎