torch.nn.LayerNorm
Geoffery Hinton
RNN 中的 LayerNorm
前文有述,BN 在 RNN 中用起来很不方便,而 Layer Normalization 这种在同隐层内计算统计量的模式就比较符合 RNN 这种动态网络,目前在 RNN 中貌似也只有 LayerNorm 相对有效,
但 Layer Normalization 目前看好像也只适合应用在 RNN 场景下,在 CNN 等环境下效果是不如 BatchNorm 或者 GroupNorm 等模型的。
从目前现状看,动态网络中的 Normalization 机制是非常值得深入研究的一个领域。