pre归一化和post归一化的比较

两种归一化的计算公式:

Pre Norm: xt+1=xt+Ft(Norm(xt))

Post Norm: xt+1=Norm(xt+Ft(xt))

参照我们的plato模型:我们的plato模型使用的归一化是pre Norm

结论是在大多数情况下,post Norm的效果都优于pre Norm。以下是证明过程:

以下是pre Norm的计算公式:

当t足够大时,Ft-1(Norm(xt-1)) 近似等于 Ft(Norm(xt)),因此原本一个t层的模型与t+1层和,近似等效于一个更宽的t层模型,所以在Pre Norm中多层叠加的结果更多是增加宽度而不是深度,层数越多,这个层就越“虚”。

而我们知道,对深度学习而言,网络深度的重要性往往大于网络的宽度。

但是pre Norm相较于post Norm还是在一些方面是有优势的:可以发现post Norm在梯度范数是不均匀的,越深的层的梯度越大,pre Norm的梯度范数是均匀的。这种结构明显更利于优化器进行优化

但是我们这里微调使用的是post 归一化,主要原因是为了让我们模型的训练更加稳定。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值