​为什么Pre Norm的效果不如Post Norm?

本文探讨了Pre Norm与Post Norm在神经网络中的效果差异。尽管Pre Norm在训练时表现出优势,但最终效果通常不如Post Norm。作者通过直观解释,指出Pre Norm的深度有“水分”,即其多层叠加更像增加宽度而非深度,降低了模型的深度,导致效果下降。Post Norm则因每次归一化削弱恒等分支,强调残差分支,从而保持更深的网络结构,实现更好的性能。
摘要由CSDN通过智能技术生成

d2a43d279005a2068b6c558c787ae582.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

Pre Norm 与 Post Norm 之间的对比是一个“老生常谈”的话题了,本博客就多次讨论过这个问题,比如文章《浅谈 Transformer 的初始化、参数化与标准化》[1]、《模型优化漫谈:BERT 的初始标准差为什么是 0.02?》等。目前比较明确的结论是:同一设置之下,Pre Norm 结构往往更容易训练,但最终效果通常不如 Post Norm。Pre Norm 更容易训练好理解,因为它的恒等路径更突出,但为什么它效果反而没那么好呢?

笔者之前也一直没有好的答案,直到前些时间在知乎上看到 @唐翔昊 的一个回复后才“恍然大悟”,原来这个问题竟然有一个非常直观的理解!本文让我们一起来学习一下。

a7e0f58c526662f023f08c58f0446b62.png

基础回顾

Pre Norm 和 Post Norm 的式子分别如下:

081c506f0968f6d690bcbb742eb15a60.png

在 Transformer 中,这里的 主要指 Layer Normalization,但在一般的模型中,它也可以是 Batch Normalization、Instance Normalization 等,相关结论本质上是通用的。

在笔者找到的资料中,显示 Post Norm 优于 Pre Norm 的工作有两篇,一篇是《Understanding the Difficulty of Training Transformers》[2],

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值