深层Transformer的一些工作

本文探讨了如何通过不同的方法提升Transformer模型的深度,包括渐进式增加网络深度、动态层信息融合以及优化初始化策略。这些方法旨在解决深度学习中常见的梯度消失和爆炸问题,以实现更稳定且精确的训练。实验结果显示,这些策略能有效提高Transformer在神经机器翻译等任务上的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0 引言

自从Transforme提出之后, 在各个领域获得了巨大的成功。 在提升精度这条道路上, 有很多的改进工作。
提升精度一个的一个常用做法就是把模型变大, 增大模型的容量, 从而提升模型的精度。 增大模型有2个方向,一个是增加宽度, 另一个是增加宽度。 像Transformer-big版本就是增加了宽度。
但是对Transformer网络, 单纯地直接增加深度通常会遇到梯度消失/爆炸等造成训练不稳定的问题。 因此需要额外的手段解决这些问题。
本文分享几篇通过不同方式加深Transformer网络深度的文章。

1 deep Transformer的一些工作

1.1 渐进增加网络深度

论文: Depth Growing for Neural Machine Translation

主要思想:通过一个two-stage的方式, 先训练一个较浅的Transformer网络, 然后在这个基础上在叠加几层, 冻结之前的层, 只训练新加的层。
整体框架如下图:
在这里插入图片描述
结果:
在这里插入图片描述

1.2 动态层信息融合,提升浅层信息的流通性

论文: Learning Deep Transformer Models for Machine Translation

主要思想: 1) 采用pre-LN增加训练的稳定性, 2) 通过动态层信息融合的方式, 提升浅层信息向深层的传递性,避免信息丢失等问题。

动态线性连接示例:
在这里插入图片描述
结果:
在这里插入图片描述

1.3 优化初始化的方式

论文: Very Deep Transformers for Neural Machine Translation

主要思想: 通过ADMIN 初始化的方式一定程度上缓解梯度爆炸/消失的风险, 从而可以训练更深的Transformer网络。

结果:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值