Transformer 学习路线说明

目录

一、6篇建议阅读的Transformer文献

二、5篇建议阅读的博客或视频

三、上述 Transformer 文献的基本介绍

四、学习顺序


、6篇建议阅读的Transformer文献

[1] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2015.

[2] Cheng J, Dong L, Lapata M. Long Short-Term Memory-Networks for Machine Reading[J]. 2016.

[3] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[J]. arXiv, 2017.

[4] An Image Is Worth 16X16 Words: Transformers For Image  Recognition At Scale

[5] Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding

[6] Efficient Transformers: A Survey

、5篇建议阅读的博客或视频

[7] The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time. (jalammar.github.io)

[8] 

Transformer详解(看不懂你来骂我)_transformer 详解 espresso encode notebooks transform-CSDN博客

[9] The Annotated Transformer (harvard.edu)

[10] 台大李宏毅21年机器学习课程 self-attention和transformer_哔哩哔哩_bilibili

[11] 清华博士花费8小时录制的【Transformer实战教程】吐血上传草履虫也能学会的Transformer代码!(深度学习入门/神经网络/人工智能)_哔哩哔哩_bilibili

三、上述 Transformer 文献的基本介绍

Transformer [3]是一种 seq2seq 模型,由Google于2017年提出,是一种完全基于注意力机制且没有类 RNN 或卷积的网络结构,最早适用于 NLP 领域。

Transformer 与文献 [1, 2] 中的注意力机制的原理相同但实现方式有区别,[1, 2] 中的注意力机制是依赖于类 RNN 网络的隐层输出得到的,而 Transformer 中的自注意力是直接从输入数据中计算得出的。

文献 [3] 详细地描述了Transformer的总体结构以及各个模块的组成内容,其中的核心部分注意力机制也有示意图展示。

文献 [4] 是ICLR 2021里的一篇Paper,这篇文献提出了ViT图像分类模型。虽然不是第一篇将transformer应用在视觉任务的论文,但是因为其模型“简单”且效果好,可扩展性强(模型越大效果越好),成为了 Transformer 在 CV 领域应用的里程碑著作。其得出的结果为:当拥有足够多的数据进行预训练的时候,ViT 的表现就会超过 CNN,突破 Transformer 缺少归纳偏置的限制。

文献 [5] 中提出了Bert模型。BERT(Bidirectional Encoder Representations from Transformers)是一种Transformer的双向编码器,旨在通过在左右上下文中共有的条件计算来预先训练来自无标号文本的深度双向表示。因此,经过预先训练的BERT模型只需一个额外的输出层就可以进行微调,从而为各种自然语言处理任务生成最新模型。

文献 [6] 对近些年来产生的 Transformer 模型进行了分类,但主要关注attention模块的效率问题。

四、学习顺序

首先阅读文献 [1][2] 了解注意力机制在传统RNN或CNN中的应用。

再阅读文献 [3] 了解Transformer的基本结构以及注意力机制在整个网络中的作用。因为此论文并没有对每个结构做详细的分析,可以对照博客 [7] 进行对照阅读。

博客 [7] 主要对Attention结构和整个网络的运行步骤进行了分析,通过此博客可以了解整个Attention机制的计算步骤以及网络的数据流动方式。但此博客对其它结构并没有详细的描述,例如词嵌入层。因此可以阅读博客 [8] 来查漏补缺。

博客 [8] 对各个模块都进行详细的分析(如LayerNorm,Embedding),并且包含示意图分析,理解起来比较容易,部分分析还附带代码展示。模型的代码可以在博客 [9] 里找到,此博客根据文献 [3] 的内容撰写了代码,而且是根据文献每一段的内容附上相应代码,因此可以清晰知道每一部分代码实现了什么功能,对应原文什么模块。因为是全英文撰写,阅读起来有困难可以配合着视频 [11] 一起学习。

视频 [11] 分模块对每一个代码进行了讲解和演示。经过此学习如果任然对注意力机制有疑惑,可以观看视频 [10] 进一步加深理解。

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Transformer学习路线可以按照以下步骤展开: 1. 首先,了解自注意力机制(Self-Attention)的原理和作用。自注意力机制是Transformer的核心组成部分,它能够对输入序列中的不同位置进行加权,从而实现对不同位置之间的依赖关系建模。 2. 然后,学习Seq2seq模型的基本原理。Seq2seq模型是一种用于处理序列到序列任务的模型,它由编码器(Encoder)和解码器(Decoder)组成。编码器将输入序列转换为一个固定长度的向量表示,解码器则根据这个向量表示生成输出序列。 3. 接下来,深入了解Transformer的编码器和解码器的结构及其工作原理。编码器由多层的自注意力机制和前馈神经网络组成,用于将输入序列转换为一个上下文感知的表示。解码器也有类似的结构,但还包括一个额外的注意力机制用于对编码器的输出进行加权组合。 4. 学习Transformer的详细原理和推导过程。了解每一部分的输入输出以及它们在模型中的作用。理解Transformer的原理能够帮助你更好地理解其在自然语言处理和机器翻译等任务中的应用。 5. 最后,深入研究Transformer在计算机视觉领域的应用。了解如何将Transformer应用于图像处理任务,并学习Vision Transformer和Vision MLP等相关概念。 通过以上学习路线,你可以逐步理解Transformer模型的基本原理和应用,并逐渐掌握其在自然语言处理和计算机视觉领域的应用技巧。希望对你的学习有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

地球被支点撬走啦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值