pre归一化和post归一化的比较

最新推荐文章于 2025-03-05 17:33:54 发布

allen_zhe0316

最新推荐文章于 2025-03-05 17:33:54 发布

阅读量611

点赞数 1

文章标签：人工智能算法

本文链接：https://blog.csdn.net/m0_61913233/article/details/132663941

版权

文章探讨了PreNorm和PostNorm两种归一化方法在深度学习中的表现，指出PostNorm通常效果优于PreNorm，尤其在梯度均匀性和训练稳定性上。Plato模型采用PostNorm，以提高模型训练的稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

两种归一化的计算公式：

Pre Norm: xt+1=xt+Ft(Norm(xt))

Post Norm: xt+1=Norm(xt+Ft(xt))

参照我们的plato模型：我们的plato模型使用的归一化是pre Norm

结论是在大多数情况下，post Norm的效果都优于pre Norm。以下是证明过程：

以下是pre Norm的计算公式：

当t足够大时，Ft-1(Norm(xt-1)) 近似等于 Ft(Norm(xt))，因此原本一个t层的模型与t+1层和，近似等效于一个更宽的t层模型，所以在Pre Norm中多层叠加的结果更多是增加宽度而不是深度，层数越多，这个层就越“虚”。

而我们知道，对深度学习而言，网络深度的重要性往往大于网络的宽度。

但是pre Norm相较于post Norm还是在一些方面是有优势的：可以发现post Norm在梯度范数是不均匀的，越深的层的梯度越大，pre Norm的梯度范数是均匀的。这种结构明显更利于优化器进行优化。

但是我们这里微调使用的是post 归一化，主要原因是为了让我们模型的训练更加稳定。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

allen_zhe0316

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Transformer 模型的详细配置---归一化、位置、激活函数和注意力机制

weixin_43961909的博客

06-28

1142

大语言模型的预训练过程中经常会出现不稳定的问题。为了应对这一问题，深度学习方法通常会采用特定的归一化策略来加强神经网络训练过程的稳定性。原始的 Transformer 模型主要使用了层归一化方法（Layer Normalization, LN）。随着研究工作的不断深入，基于层归一化的改进技术不断涌现，例如均方根层归一化（Root Mean Square Layer Normalization, RMSNorm）和 DeepNorm，这些新技术已经在一些大语言模型中得到应用。 LayerNorm

NLP高频面试题（五十四）——深度学习归一化详解

最新发布

WeLearnNLP

04-25

353

现代深度学习中出现了多种归一化技术，它们各有针对的应用场景和特点。我们下面将介绍批归一化（Batch Normalization）层归一化（Layer Normalization）组归一化（Group Normalization）等最为常见的方法，以及实例归一化（Instance Normalization）、**权重归一化（Weight Normalization）**等衍生技术。对于每种方法，我们将讨论其核心原理、计算步骤、优势与局限。

1 条评论您还未登录，请先登录后发表或查看评论

Pre Norm 和 Post Norm 各自的优缺点？

强化学习曾小健

07-09

3165

但是 Pre Norm 也并不是都是好的，这篇论文指出，Pre Norm 有潜在的（表示塌陷） representation collapse 问题，具体来说就是靠近输出位置的层会变得非常相似，从而对模型的贡献会变小。即使加了 warm up，对warm up 参数的设置也很敏感，比如 warm up step 在500 步时，不同的lrmax 的 BLEU 一个31，一个还不到3。的均值为0，方差都为1，且相互独立。早期的很多模型都用的是 Post Norm，比如著名的 Bert。

PreNorm和PostNorm对比

taoqick的专栏

01-27

3949

标准的Transformer使用的是PostNorm在完全相同的训练设置下Pre Norm的效果要优于Post Norm，这只能显示出Pre Norm更容易训练，因为Post Norm要达到自己的最优效果，不能用跟Pre Norm一样的训练配置（比如，这里说的warmup是指先给一个小的学习率warmup，然后再Linear decay）。Attention is all you need其实介绍过这种warmup(如下面截图)

Transformer番外：PreNorm 效果不如 PostNorm 的原因

Vessel_Liu的博客

03-05

765

PreNorm 倾向于退化为一个“浅而宽”的模型，即在 PreNorm 中多层叠加的结果更多是增加宽度而不是深度，而在深度学习网络中深度更加重要，这使得PreNorm 模型的效果变差。PostNorm 是更突出残差分支的，因此Post Norm中的层数更加“足秤”，一旦训练好之后效果更优

Pre Norm与Post Norm的区别

m0_74180527的博客

10-09

367

Pre Norm训练稳定，收敛性好（大模型由于训练的成本较大，基本都使用该方法），但Pre-Norm实际上相当于通过了一个更宽的网络而非更深的网络，在同等深度下，Pre-Norm的实际效果相当于一个更浅却更宽的网络，实际效果不如Post Norm。Post Norm 会导致越靠前的层衰减的越严重，这和残差连接设计的初衷是相悖的，而且训练起来也不稳定，梯度容易爆炸，收敛较为困难（须使用warmup机制）。

pre-norm 和 post-norm 的区别

w18013886857的博客

10-28

1775

之前关注过 pre-norm 和 post-norm 的区别，这篇文章中的 deepnorm 进一步发扬了这一点。

【Transformer】Post-Norm和Pre-Norm

weixin_43799388的博客

09-09

2223

Post Norm对模型，尤其是较深的模型训练不稳定，梯度容易爆炸，学习率敏感，初始化权重敏感，收敛困难。因此需要做大量调参工作，以及learning rate warm up的必要工作，费时费力潜在好处是，在效果上的优势，但是这个事情还需要大量专业的实验来验证，毕竟现在大模型训练太费钱了，Post Norm 在效果上带来的提升很可能不如多扔点数据让 Pre Norm 更快的训练出来Pre Norm在训练稳定和收敛性方面有明显的优势，所以大模型时代基本都无脑使用 Pre Norm 了。

transformer添加归一化的代码

04-04

- **预归一化（Pre-LN）**：改进版本将LayerNorm放在子层前，可提升训练稳定性[^2]。 2. **BatchNorm的局限性**： - BatchNorm依赖批次维度统计量，而Transformer处理变长序列时批次内样本长度可能不一致，导致...

现代卷积神经网络(GoogLeNet+批量归一化+ResNet+DenseNet)

m0_63276919的博客

10-29

1975

其中Inception块的通道数分配之比是在ImageNet数据集上通过大量的实验得来的。GoogLeNet和它的后继者们一度是ImageNet上最有效的模型之一：它以较低的计算复杂度提供了类似的测试精度。

为什么Pre Norm的效果不如Post Norm？

Paper weekly

05-01

1651

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 追一科技研究方向 | NLP、神经网络Pre Norm 与 Post Norm 之间的对比是一个“老生常谈”的话题了，本博客就多次讨论过这个问题，比如文章《浅谈 Transformer 的初始化、参数化与标准化》[1]、《模型优化漫谈：BERT 的初始标准差为什么是 0.02？》等。目前比较明确的结论是：同一设...

大模型——理论基础——常用的Norm

fan_fan_feng的专栏

02-01

8786

这样的顺序对于训练更深的网络可能更稳定，因为归一化的输入可以帮助缓解训练过程中的梯度消失和梯度爆炸问题。比于LN，可以发现，不论是分母的方差和分子部分，都取消了均值计算，经作者在各种场景中实验发现，减少约 7%∼64% 的计算时间。通过上面三组实验，作者认为 Post-LN 的不稳定性部分来自于梯度消失以及初始化的时候，更新太大，陷入了局部最优，跑不出去了。都是根据模型的Encoder（N）和Decoder（M）层数计算出来的，通过如下方案，作者把模型的层数提升到了1000+。

2022年4月18日字节跳动机器学习AILab一面面试题

weixin_48003282的博客

04-22

1785

1、BN和LN区别。 2、讲讲self attention。 3、Bert的预训练过程。 4、Pre Norm与Post Norm的区别？ 5、GPT与Bert的区别。 6、如何加速Bert模型的训练。

大模型面试常考知识点1

baidu_33000721的博客

05-10

1089

大模型面试必考题

为什么大模型结构设计中往往使用postNorm而不用preNorm？

stephen147的博客

06-29

2044

*如果不进行Wamrup，那么模型一开始就快速地学习，由于梯度消失，模型对越靠后的层越敏感，也就是越靠后的层学习得越快，**然后后面的层是以前面的层的输出为输入的，前面的层根本就没学好，所以后面的层虽然学得快，但却是建立在糟糕的输入基础上的。很快地，后面的层以糟糕的输入为基础到达了一个糟糕的局部最优点，此时它的学习开始放缓（因为已经到达了它认为的最优点附近），同时反向传播给前面层的梯度信号进一步变弱，这就导致了前面的层的梯度变得不准。而因为pre Norm实际层数少了导致效果变差了。

每天一个知识点——Normalization

kavin_star的博客

08-10

1653

学习过程的记录与总结，有些是个人的理解，不一定全对，欢迎讨论和指正

LLM：大模型的正则化

皮皮blog

05-30

3449

主流大模型使用的Normalization主要有三类，分别是Layer Norm，RMS Norm，以及Deep Norm。小模型的正则化参考：l1l2正则和dropout正则化[LN和BN归一化 [

探究Transformer中PostNorm/PreNorm/Initialization/LearningRate之间的关系

小岁月太着急

12-16

7952

论文：On Layer Normalization in the Transformer Architecture 推荐说明：我们知道，在原始的Transformer中，Layer Norm在跟在Residual之后的，我们把这个称为Post-LN Transformer；而且...