不同的是BN取的是不同样本的同一个特征,而LN取的是同一个样本的不同特征。
参考链接1:https://zhuanlan.zhihu.com/p/38755603
参考链接2:https://zhuanlan.zhihu.com/p/54530247
相关论文:2020ICML-PowerNorm: Rethinking Batch Normalization in Transformers
不同的是BN取的是不同样本的同一个特征,而LN取的是同一个样本的不同特征。
参考链接1:https://zhuanlan.zhihu.com/p/38755603
参考链接2:https://zhuanlan.zhihu.com/p/54530247
相关论文:2020ICML-PowerNorm: Rethinking Batch Normalization in Transformers