DeepNet :Scaling Transformers to 1000 Layer

DeepNet :Scaling Transformers to 1000 Layer

Introduction

作者提出了一种简单且高效的方法稳定的提升了Transformer 的深度,这种方法是一种新的残差连接的方式(DeepNorm),它结合了以前的Post-LN的高表现与Pre-LN的稳定性的优点。通过这种方法作者把Transformer的层数提升了一个数量级。

作者还提到 200 层 3.2B的参数要outperform 48层12B的参数的模型 5个点。
在这里插入图片描述

近年来大模型是一个趋势,参数量从million 到 billion 再到 trillions。尽管有着巨大的参数,但是他们的深度都被模型性训练不稳定所制约。

作者还提到大模型训练更深层次的网络不稳定的原因可能是exploding model update,本人理解为 大量的更新参数 可能会陷入局部最优。

TL;DR for Practitioners

在这里插入图片描述
上述图片为deepnorm的伪代码,其中以Post-LN为基础,给 x 加一个alpha权重,然后对ffn,v_projection, out_projection 与 q_projection 和k_projection分别采用不同的初始化方法,区别是gain参数,其中gain参数为一个可选的比例因子。
在这里插入图片描述
alpha 与beta的选择参考如下:

N-layer encoder, M-layer decoder

在这里插入图片描述

Experiment

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HanZee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值