对于一个维度为NCHW的张量,Layernorm的做法为在C的维度上进行归一化(求N*H*W个均值、方差,分别对不同的C进行归一化)e.g: Batchnorm的做法为在NHW维度上求均值和方差(求C个均值、方差,分别对不同的进行归一化)e.g