为什么大模型结构设计中往往使用postNorm而不用preNorm?

本篇结合深度神经网络特点、postNorm与preNorm的公式阐释、实验结论以及具体Post Norm的用法来解释大模型结构设计中往往使用postNorm而非preNorm这一现象。

我们知道,大模型网络结构中基本上都用Post Norm,而几乎不用Pre Norm。其实Pre Norm与Post Norm之间的对比算是“老生常谈”的话题了,一个比较明确的结论是:

同一设置之下,Pre Norm结构往往更容易训练,但最终效果通常不如Post Norm。

那么是为什么呢?

本文通过公式阐释、实验结论以及具体Post Norm的用法来试图解释这个结论,下面是一个快捷目录。

1. 直观理解

2. 实验结论

3. PostNorm 结构的模型中 warm up 是如何起作用的?

一、直观理解

1. 结论

Pre Norm的深度有“水分”!

也就是说,一个L层的Pre Norm模型,其实际等效层数不如L层的Post Norm模型;而因为pre Norm实际层数少了导致效果变差了。

2. 公式阐释

1)Pre Norm 和 Post Norm的公式

!

式中,Norm主要指Layer Normalization,但在一般的模型中,它也可以是Batch Normalization、Instance Normalization等,相关结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值