Post Norm公式:
Pre Norm公式:
从公式可以看出:在对模型更新时,Pre Norm靠前层梯度大,靠后层的梯度小,Post Norm恰好相反。
Post Norm 会导致越靠前的层衰减的越严重,这和残差连接设计的初衷是相悖的,而且训练起来也不稳定,梯度容易爆炸,收敛较为困难(须使用warmup机制)。
Pre Norm训练稳定,收敛性好(大模型由于训练的成本较大,基本都使用该方法),但Pre-Norm实际上相当于通过了一个更宽的网络而非更深的网络,在同等深度下,Pre-Norm的实际效果相当于一个更浅却更宽的网络,实际效果不如Post Norm。
参考: