Pre Norm 和 Post Norm 各自的优缺点？

最新推荐文章于 2025-04-21 21:58:40 发布

强化学习曾小健

最新推荐文章于 2025-04-21 21:58:40 发布

阅读量3.2k

点赞数 24

文章标签：人工智能语言模型深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37574187/article/details/140271551

版权

"Pre Norm 和 Post Norm 各自的优缺点？" 学妹这么回答

原创看图学看图学 2024年07月08日 07:55 山西

题目：

Pre Norm 和 Post Norm 各自的优缺点？

答案

这个问题其实还蛮难回答的，因为目前并没有特别好的理论来解释清楚。

我们先按时间顺序来梳理一下关于 Pre-Norm 和 Post-Norm 的研究。

Pre Norm 和 Post Norm 的区别 Layer Norm 和 Residual connections 组合方式的不同。

2017 Attention is All your Need

在原始的 Transformers 论文中，使用的是 Post Norm，如下所示。

Post Norm 用公式可以表示为：

每一层的输入先与 Attention 相加，然后才计算 Layer Norm。早期的很多模型都用的是 Post Norm，比如著名的 Bert。

Post Norm 之所以这么设计，是把 Normalization 放在一个模块的最后，这样下一个模块接收到的总是归一化后的结果。这比较符合 Normalization 的初衷，就是为了降低梯度的方差。但是层层堆叠起来，从上图可以看出，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

强化学习曾小健 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。