Transformer学习【从零理解】

最新推荐文章于 2024-11-10 10:07:03 发布

In year

最新推荐文章于 2024-11-10 10:07:03 发布

阅读量887

点赞数 20

分类专栏：深度学习文章标签： transformer 深度学习

本文链接：https://blog.csdn.net/qq_49288362/article/details/136844597

版权

深度学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文详细介绍了Transformer模型的组成部分，包括输入处理（Embedding和位置编码）、注意力机制（单头或多头自注意力）、残差结构、LayerNormalization以及Decoder的带掩码的多头自注意力和交互层。重点展示了Transformer如何通过这些组件保证顺序信息和预测一致性。

摘要由CSDN通过智能技术生成

Transformer

一、整体框架

在这里插入图片描述

二、Encoder

在这里插入图片描述

1.输入部分:

（1）Embedding：将输入的词转换为对应的词向量。
（2）位置编码：因为保证输出时，顺序不会打乱，所以要加入时序信息即位置编码。
公式：偶数时用sin三角函数，奇数时用cos三角函数。
在这里插入图片描述
（3）将Embedding和位置编码合并后传入注意力机制。

2.注意力机制：

简而言之，注意力就是分配权重。了解哪部分是比较重要的。
（1）公式：
$\mathrm{Attention}(Q,K,V)=\mathrm{softmax}(\frac{QK^{T}}{\sqrt{d_{k}}})V$
将输入部分复制为三份，分别作为Q、K、V，然后将Q和K做点击，除以 $\sqrt{d_k}$ ,在做softmax，得到一些和为1的权重，与V进行乘机，得到注意力分数。
在这里插入图片描述

（2）在原论文中使用的是多头自注意力机制，用的是矩阵相乘，便于并行，提高计算速度。之后将多个输出，合并在一起。