深层Transformer的一些工作

最新推荐文章于 2024-05-24 09:57:55 发布

leo0308

最新推荐文章于 2024-05-24 09:57:55 发布

阅读量641

点赞数

分类专栏： Transformer系列文章标签：深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leo0308/article/details/123905923

版权

Transformer系列专栏收录该内容

11 篇文章

订阅专栏

本文探讨了如何通过不同的方法提升Transformer模型的深度，包括渐进式增加网络深度、动态层信息融合以及优化初始化策略。这些方法旨在解决深度学习中常见的梯度消失和爆炸问题，以实现更稳定且精确的训练。实验结果显示，这些策略能有效提高Transformer在神经机器翻译等任务上的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0 引言

自从Transforme提出之后，在各个领域获得了巨大的成功。在提升精度这条道路上，有很多的改进工作。
提升精度一个的一个常用做法就是把模型变大，增大模型的容量，从而提升模型的精度。增大模型有2个方向，一个是增加宽度，另一个是增加宽度。像Transformer-big版本就是增加了宽度。
但是对Transformer网络，单纯地直接增加深度通常会遇到梯度消失/爆炸等造成训练不稳定的问题。因此需要额外的手段解决这些问题。
本文分享几篇通过不同方式加深Transformer网络深度的文章。

1 deep Transformer的一些工作

1.1 渐进增加网络深度

论文： Depth Growing for Neural Machine Translation

主要思想：通过一个two-stage的方式，先训练一个较浅的Transformer网络，然后在这个基础上在叠加几层，冻结之前的层，只训练新加的层。
整体框架如下图：
在这里插入图片描述
结果：

1.2 动态层信息融合，提升浅层信息的流通性

论文： Learning Deep Transformer Models for Machine Translation

主要思想： 1) 采用pre-LN增加训练的稳定性， 2) 通过动态层信息融合的方式，提升浅层信息向深层的传递性，避免信息丢失等问题。

动态线性连接示例：
在这里插入图片描述
结果：

1.3 优化初始化的方式

论文： Very Deep Transformers for Neural Machine Translation

主要思想：通过ADMIN 初始化的方式一定程度上缓解梯度爆炸/消失的风险，从而可以训练更深的Transformer网络。

结果：
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。