深层Transformer的一些工作

0 引言

自从Transforme提出之后, 在各个领域获得了巨大的成功。 在提升精度这条道路上, 有很多的改进工作。
提升精度一个的一个常用做法就是把模型变大, 增大模型的容量, 从而提升模型的精度。 增大模型有2个方向,一个是增加宽度, 另一个是增加宽度。 像Transformer-big版本就是增加了宽度。
但是对Transformer网络, 单纯地直接增加深度通常会遇到梯度消失/爆炸等造成训练不稳定的问题。 因此需要额外的手段解决这些问题。
本文分享几篇通过不同方式加深Transformer网络深度的文章。

1 deep Transformer的一些工作

1.1 渐进增加网络深度

论文: Depth Growing for Neural Machine Translation

主要思想:通过一个two-stage的方式, 先训练一个较浅的Transformer网络, 然后在这个基础上在叠加几层, 冻结之前的层, 只训练新加的层。
整体框架如下图:
在这里插入图片描述
结果:
在这里插入图片描述

1.2 动态层信息融合,提升浅层信息的流通性

论文: Learning Deep Transformer Models for Machine Translation

主要思想: 1) 采用pre-LN增加训练的稳定性, 2) 通过动态层信息融合的方式, 提升浅层信息向深层的传递性,避免信息丢失等问题。

动态线性连接示例:
在这里插入图片描述
结果:
在这里插入图片描述

1.3 优化初始化的方式

论文: Very Deep Transformers for Neural Machine Translation

主要思想: 通过ADMIN 初始化的方式一定程度上缓解梯度爆炸/消失的风险, 从而可以训练更深的Transformer网络。

结果:
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值