目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】Transformer

本文深入探讨Transformer模型,从注意力机制的原理出发,详细解析了Transformer编码器中的多头注意力机制、位置编码以及Transformer架构。内容涵盖自注意力、多头注意力、编码器-解码器注意力、位置前馈网络、残差连接和层归一化等关键概念,揭示了Transformer如何处理序列信息中的长距离依赖关系,并行计算以及在不同任务中的应用,包括在NLP和视觉领域的变体。
摘要由CSDN通过智能技术生成

目录

什么是 Transformer?

什么是注意力机制?

Transformer编码器

位置编码

多头注意力

1. 注意力(attention)在Transformer中的应用

1.1 编码器自注意力

1.2 解码器自注意力

1.3 编码器-解码器注意力

2. 多重注意力头

3. 注意力超参数

4. 输入层

5. 线性层

6. 跨注意力头分割数据

7. 为每个头计算注意力分数

8. 将每个头的注意力分数合并在一起

9. 端到端的多头注意力

10. 多头分割捕获更丰富的解释

11. 解码器自注意力和掩码

12. 编码器-解码器注意力和掩码

Transformer架构

1、Transformer模型架构

2、Transformer 概览

2.1 Encoder-Decoder

编码器/解码器组成

3、引入张量

3.1 引入词嵌入Embedding

3.2 词嵌入后编码

4、Self-Attention(自注意力)

4.1 Self-Attention概览

4.2 Self-Attention机制

4.3 Self-Attention详解

4.4 使用矩阵计算 Self-Attention

5、多头注意力机制(Multi-head Attention)

5.1 多头注意力机制架构

5.2 Multi-head Attention总结

6、位置前馈网络(Position-wise Feed-Forward Networks)

7、残差连接和层归一化

8、位置编码

9、解码器Decoder

10、掩码Mask

10.1 Padding Mask

10.2 Sequence Mask

11、最后的线性层和 Softmax 层

11.1 线性层

11.2 Softmax层

12、嵌入层和最后的线性层

13、正则化操作


什么是 Transformer?

一切源于2017年谷歌Brain团队那篇鼎鼎大名的文章“Attention Is All You Need”(注意力就是你所需要的一切),就是这篇文章提出了Transformer网络结构。

图片

Transformer的意义体现在它的长距离依赖关系处理和并行计算,而这两点都离不开其提出的自注意力机制。

首先,Transformer引入的自注意力机制能够有效捕捉序列信息中长距离依赖关系,相比于以往的RNNs,它在处理长序列时的表现更好。

而自注意力机制的另一个特点时允许模型并行计算,无需RNN一样t步骤的计算必须依赖t-1步骤的结果,因此Transformer结构让模型的计算效率更高,加速训练和推理速度。

Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。

这些特点

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

格图素书

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值