目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】Transformer

格图素书

于 2024-02-04 00:30:00 发布

阅读量135

点赞数 4

分类专栏：目标检测YOLO系列从入门到精通技术详解100篇文章标签：目标检测 transformer 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/getusushu/article/details/134503327

版权

目标检测YOLO系列从入门到精通技术详解100篇专栏收录该内容

74 篇文章 9 订阅 ¥29.90 ¥99.00

订阅专栏

本文深入探讨Transformer模型，从注意力机制的原理出发，详细解析了Transformer编码器中的多头注意力机制、位置编码以及Transformer架构。内容涵盖自注意力、多头注意力、编码器-解码器注意力、位置前馈网络、残差连接和层归一化等关键概念，揭示了Transformer如何处理序列信息中的长距离依赖关系，并行计算以及在不同任务中的应用，包括在NLP和视觉领域的变体。

摘要由CSDN通过智能技术生成

目录

什么是 Transformer？

什么是注意力机制？

Transformer编码器

多头注意力

1. 注意力（attention）在Transformer中的应用

1.1 编码器自注意力

1.2 解码器自注意力

1.3 编码器-解码器注意力

2. 多重注意力头

3. 注意力超参数

6. 跨注意力头分割数据

7. 为每个头计算注意力分数

8. 将每个头的注意力分数合并在一起

9. 端到端的多头注意力

10. 多头分割捕获更丰富的解释

11. 解码器自注意力和掩码

12. 编码器-解码器注意力和掩码

Transformer架构

1、Transformer模型架构

2、Transformer 概览

2.1 Encoder-Decoder

编码器/解码器组成

3、引入张量

3.1 引入词嵌入Embedding

3.2 词嵌入后编码

4、Self-Attention（自注意力）

4.1 Self-Attention概览

4.2 Self-Attention机制

4.3 Self-Attention详解

4.4 使用矩阵计算 Self-Attention

5、多头注意力机制（Multi-head Attention）

5.1 多头注意力机制架构

5.2 Multi-head Attention总结

6、位置前馈网络（Position-wise Feed-Forward Networks）

7、残差连接和层归一化

8、位置编码

9、解码器Decoder

10、掩码Mask

10.1 Padding Mask

10.2 Sequence Mask

11、最后的线性层和 Softmax 层

11.2 Softmax层

12、嵌入层和最后的线性层

13、正则化操作

什么是 Transformer？

一切源于2017年谷歌Brain团队那篇鼎鼎大名的文章“Attention Is All You Need”（注意力就是你所需要的一切），就是这篇文章提出了Transformer网络结构。

Transformer的意义体现在它的长距离依赖关系处理和并行计算，而这两点都离不开其提出的自注意力机制。

首先，Transformer引入的自注意力机制能够有效捕捉序列信息中长距离依赖关系，相比于以往的RNNs，它在处理长序列时的表现更好。

而自注意力机制的另一个特点时允许模型并行计算，无需RNN一样t步骤的计算必须依赖t-1步骤的结果，因此Transformer结构让模型的计算效率更高，加速训练和推理速度。

Transformer最开始应用于NLP领域的机器翻译任务，但是它的通用性很好，除了NLP领域的其他任务，经过变体，还可以用于视觉领域，如ViT（Vision Transformer）。

这些特点

了解本专栏

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】Transformer

这差不多就是多头注意力的全部内容了。下面将所有内容放到一张图中，以便我们可以统一查看：现在让我们重新回顾一下前面的例子，看看在对示例句中的“it”进行编码时，不同的注意力头关注的位置分别在哪：当我们对it进行编码时，一个注意力头关注The animal，另一个注意力头关注tired。从某种意义上来说，模型对it的表示，融入了animal和tired的部分表达。的本质是：在参数总量保持不变的情况下，将同样的映射到原来的高维空间的不同子空间中进行Attention的计算，在最后一步再合并不同子空间中的。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

格图素书 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。