[batch_size, length, feature]
BN 不同length,对同一 batch_size 和 feature 的归一化 ,即 [batch_size, 1, feature]做归一化,会有length 个输出
LN, 不同batch_size ,对同一个lengh 和 feature的归一化,即[ 1, lenght, feature] 做归一化,共有 batch_size 个输出,所以不受 batch_size 的影响
对于一个batch为32的神经网络训练,会有32个均值和方差被得出,每个均值和方差都是由单个图片的所有channel之间做一个标准化。这么操作,就使得LN不受batch size的影响。同时,LN可以很好地用到序列型网络如RNN中。同时,LR在训练过程和inference过程都会有,这就是和BN很大的差别了。