transformer 为什么使用 layer normalization，而不是其他的归一化方法？

嘉熙990

于 2022-04-12 13:53:35 发布

阅读量1.8k

点赞数 3

文章标签： nlp 人工智能 ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67769784/article/details/124122301

版权

Transformer模型使用Layer Normalization(LN)而非Batch Normalization(BN)或Instance Normalization(IN)的原因在于NLP任务中序列长度不定导致BN的统计量不稳定。尽管LN和BN在特定情况下都有优秀表现，但实验显示LN在NLP任务中总体效果更优。LN有助于控制Attention计算中q和k的范数，防止梯度消失/爆炸，且RMS Norm作为LN的变体，可能进一步提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于深度学习的很多技巧，当你实验做得足够多的时候你就会发现，这类问题的唯一正确答案是：

因为实验结果显示这样做效果更好！

当然，你非要想找一个像模像样的解释，其实也能尝试一下。对于Transformer为什么用LN而不是BN/IN，我估计《Attention is all you need》的作者们当时肯定没有想那么多，而是发现当时NLP中主流就是用LN，所以就跟着用了。

那么，NLP为什么用LN居多呢？非要说原因，大致上是NLP的文本本质上可以看成一个时间序列，而时间序列是不定长的，长度不同的序列原则上属于不同的统计对象，所以很难得到稳定的统计量，而得不到稳定的统计量，BN就无法成立了（因为BN依靠滑动平均来获得一组预测用的统计量）。

但问题是，抛开具体的统计背景不说，我们硬是要在NLP模型中套上一层BN不行吗？肯定行，这又不犯法。那么是不是NLP+BN效果一定就不如NLP+LN？这还真不一定，以往我们做过一些实验，某些情况下NLP+BN是最好的，但总体来说还是NLP+LN更好，所以归根结底还是前面的唯一正确答案：

因为实验结果显示这样做效果更好ÿ

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。