Pre Norm 和 Post Norm 各自的优缺点?

"Pre Norm 和 Post Norm 各自的优缺点?​" 学妹这么回答

原创 看图学 看图学 2024年07月08日 07:55 山西

图片

题目:

Pre Norm 和 Post Norm 各自的优缺点?

答案

这个问题其实还蛮难回答的,因为目前并没有特别好的理论来解释清楚。

我们先按时间顺序来梳理一下关于 Pre-Norm 和 Post-Norm 的研究。

Pre Norm 和 Post Norm 的区别 Layer Norm 和 Residual connections 组合方式的不同。

2017 Attention is All your Need

在原始的 Transformers 论文中,使用的是 Post Norm,如下所示。

图片

Post Norm 用公式可以表示为:

每一层的输入先与 Attention 相加,然后才计算 Layer Norm。早期的很多模型都用的是 Post Norm,比如著名的 Bert。

Post Norm 之所以这么设计,是把 Normalization 放在一个模块的最后,这样下一个模块接收到的总是归一化后的结果。这比较符合 Normalization 的初衷,就是为了降低梯度的方差。但是层层堆叠起来,从上图可以看出,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值