为什么Pre Norm的效果不如Post Norm？

最新推荐文章于 2024-08-01 13:59:22 发布

PaperWeekly

最新推荐文章于 2024-08-01 13:59:22 发布

阅读量1.5k

点赞数 1

文章标签：人工智能机器学习神经网络深度学习算法

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124535277

版权

本文探讨了Pre Norm与Post Norm在神经网络中的效果差异。尽管Pre Norm在训练时表现出优势，但最终效果通常不如Post Norm。作者通过直观解释，指出Pre Norm的深度有“水分”，即其多层叠加更像增加宽度而非深度，降低了模型的深度，导致效果下降。Post Norm则因每次归一化削弱恒等分支，强调残差分支，从而保持更深的网络结构，实现更好的性能。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

Pre Norm 与 Post Norm 之间的对比是一个“老生常谈”的话题了，本博客就多次讨论过这个问题，比如文章《浅谈 Transformer 的初始化、参数化与标准化》[1]、《模型优化漫谈：BERT 的初始标准差为什么是 0.02？》等。目前比较明确的结论是：同一设置之下，Pre Norm 结构往往更容易训练，但最终效果通常不如 Post Norm。Pre Norm 更容易训练好理解，因为它的恒等路径更突出，但为什么它效果反而没那么好呢？

笔者之前也一直没有好的答案，直到前些时间在知乎上看到 @唐翔昊的一个回复后才“恍然大悟”，原来这个问题竟然有一个非常直观的理解！本文让我们一起来学习一下。