如何从浅入深理解 Transformer

如何从浅入深理解 Transformer

附赠自动驾驶最全的学习资料和量产经验:链接

本回答分为三个部分:Transformer,Attention,论文

学习顺序按照排列顺序,不过还是看个人自由。如果对attention了解,就可以跳过。

Attention

Transformer

论文列表

  • Transformer

  • BERT

  • ALBERT

  • RoBERTa

  • GPT-2

  • MASS

  • BART

  • UniLM-1,2

  • T5

  • 邱老师

@邱锡鹏

的PLM综述:https://arxiv.org/pdf/2003.08271

  • 邱老师和林dalao的Transformer综述

@TniL

https://arxiv.org/pdf/2106.04554

  • THUNLP组(刘老师)

@zibuyu9

的PLM论文list:thunlp/PLMpapers

  • 19
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer是一种基于注意力机制(attention mechanism)的深度学习模型,用于处理序列数据,尤其在自然语言处理(NLP)任务中表现出色。它由Vaswani等人于2017年提出,并成功应用于机器翻译任务。 传统的序列模型如循环神经网络(RNN)在处理长序列时存在梯度消失或梯度爆炸的问题,并且无法高效并行化。而Transformer采用了自注意力机制,使得模型能够同时考虑输入序列中的所有位置,从而解决了这些问题。 Transformer的核心思想是将输入序列映射为多个向量表示,分别表示不同位置的语义信息,然后通过多层堆叠的自注意力层和前馈神经网络层来进行信息的编码和解码。自注意力层通过计算输入序列中每个位置与其他位置的相关性来获取全局上下文信息,而前馈神经网络层则用于对每个位置的隐层表示进行非线性变换。 具体来说,Transformer包含了编码器(Encoder)和解码器(Decoder)两部分。编码器负责将输入序列映射为一系列高维向量表示,而解码器则使用这些向量表示生成目标序列。在每个层中,Transformer使用多头注意力机制来捕捉不同注意力方向的信息,并通过残差连接和层归一化来稳定训练。 Transformer的优点在于能够并行计算,使得训练速度更快,并且在处理长序列时表现出色。它不需要像RNN那样按顺序逐步处理输入,因此可以更好地捕捉远距离依赖关系。由于其良好的表现和可解释性,Transformer在自然语言处理领域的各种任务中得到了广泛应用,如机器翻译、语言模型、文本摘要等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值