【深度学习】这千层transformer让我目瞪口呆

 作者:十方

见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transformers to 1000 Layers>它来了。它提出了一个简单有效的方法来训练"极深"的transformer。这篇论文提出了一个新的标准化方程(DEEPNORM)去修改transformer中的残差链接。该论文有着非常深入的理论分析模型在训练过程中参数更新是非常稳定的,使得1000层的transformer诞生,并且在各项指标上吊打其他模型。

7fc3d1f87aec54110f26e5f8ee48b93b.png

DEEPNORM

f4cdfec08c3d3aa42434f4e78fe91c3e.png

 基于Post-LN的transfomer,该文实现了DEEPNORM(如下图伪代码所示)。与Post-LN相比,DEEPNORM在进行layer-norm之前会扩大残差连接。除此以外,在初始化过程中降低了参数的比例。需要注意的是,该方法只会扩大前馈网络的权值的规模,以及attention层的投影值。

1d87465c535be06842b3a92b9c1fba90.png

813ae07de72e70a014c682ff92e47757.png

DEEPNET基于transformer架构,不同的就是用了deepnorm替换每层的post-LN,如下式所示,Gl是第l层attention和feed-forward网络:

595ccf50a4c4185ce742d93eb6801a84.png

下图中我们发现对比Post-LN,DeepNet更新更加稳定。

55b10cecdcdb561a37ecc5efbcaeab99.png

实验

71492c1770ba140933913931e4df3d2d.png

e6b66db5f5781dabe3aa01dceef276b9.png

b8f602dffbbd9282f9387da80a584f0f.png

11753c3ea09a154a00fd7aa243c72e19.png

参考文献

e06b375dd6ed9b4b7e361b892a6d8ac8.png

  • DeepNet: Scaling Transformers to 1000 Layers

https://arxiv.org/pdf/2203.00555.pdf

 
 
 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419,加入微信群请扫码:

b022b9a7ee8df13a8db20cb04e9b24c3.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值