【翻译】A Survey of Transformers -- Transformers综述

NLP_wendi

已于 2022-06-16 12:41:50 修改

阅读量665

点赞数

分类专栏： Transformer NLP 深度学习文章标签： transformer 深度学习机器学习

于 2022-06-16 11:43:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32275289/article/details/125311104

版权

深度学习同时被 3 个专栏收录

32 篇文章

订阅专栏

18 篇文章

订阅专栏

10 篇文章

订阅专栏

本文概述了复旦大学邱锡鹏团队Transformer的变体（X-formers），探讨了其在模型效率提升、结构改进、预训练策略和广泛应用上的进展，为理解与实践Transformer提供系统指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇文章翻译自复旦大学邱锡鹏团队的 Transformers 综述。
文章链接：A Survey of Transformers

Abstract

Transformers在许多领域都取得了取得的成功，如：NLP、CV和语音处理，自然吸引了学术界和工业界的很大兴趣。到目前为止，已经有许多Transformers的变体（也就是 X-formers）被提出来，然而仍然缺乏对这些变体的系统的、全面的文献解读。这篇综述中，我们提出对X-formers 全面的评述。我们首先介绍了Vanilla Transformer，然后对X-formers 进行划分，接下来从结构、预训练和应用三个方面介绍了不同的X-formers，最后描绘了未来发展方向。

Introduction

X-formers从三个方面丰富了Vanilla Transformer：

模型效率：应用Transformer的一个关键挑战是在self-Attention时计算和内存的限制，导致的处理长文本时的低效率。一些改进方法包括：lightweight attention (e.g. sparse attention variants) and Divide-and-conquer methods ((e.g., recurrent and hierarchical mechanism)
模型泛化：因为Transformer结构比较灵活，针对输入数据的固有偏差上几乎没有假设，因此在处理小规模数据时比较困难。改进的方法包括：引入结构化偏置、正则化、在大规模数据上预训练。
模型应用：工作的主线旨在将Transformer应用在下游任务上。

BackGround

Vanilla Transformer

在这里插入图片描述

Transformers 划分

Attention

其它魔改

网络结构变体

预训练Transformers

Transformers应用

CONCLUSION AND FUTURE DIRECTIONS

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

NLP_wendi 谢谢您的支持。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。