简述Transformer工作流程

最新推荐文章于 2024-09-07 22:26:58 发布

chen008hi

最新推荐文章于 2024-09-07 22:26:58 发布

阅读量845

点赞数 23

分类专栏：人工智能文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_41312236/article/details/140880352

版权

2 篇文章 0 订阅

订阅专栏

Transformer 工作流程

Transformer 是一种深度学习模型，特别适用于处理序列数据，如自然语言处理任务。它由编码器（Encoder）和解码器（Decoder）两个部分组成，每个部分包含多个层。以下是 Transformer 的基本工作流程：

输入嵌入层（Input Embedding）：
- 输入序列的每个词被转换为一个固定维度的向量，这个过程通常使用嵌入层（Embedding Layer）。
位置编码（Positional Encoding）：
- 由于 Transformer 没有内置的顺序信息，需要通过位置编码来引入序列的位置信息。位置编码被加到输入嵌入向量上。
多头自注意力机制（Multi-Head Self-Attention Mechanism）：
- 自注意力机制允许每个词对序列中的所有其他词进行加权求和。通过多个头（Heads）来计算自注意力，可以捕捉不同子空间的信息。
- 计算公式包括：
  $\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
  其中 (Q) 是查询（Query），(K) 是键（Key），(V) 是值（Value），(d_k) 是键的维度。
前馈神经网络（Feed-Forward Neural Network）：
- 经过自注意力机制处理的输出通过前馈神经网络，包含两个线性变换和一个激活函数（通常是 ReLU）。
残差连接和层规范化（Residual Connection and Layer Normalization）：
- 每个子层（即自注意力和前馈神经网络）之后都有残差连接和层规范化，以缓解梯度消失问题并加速训练。

编码器由多个这样的层堆叠而成，每一层都执行上述操作。

输入嵌入层和位置编码：
- 类似于编码器，解码器将目标序列的每个词转换为嵌入向量，并加上位置编码。
掩码多头自注意力机制（Masked Multi-Head Self-Attention Mechanism）：
- 解码器中的自注意力机制使用掩码（Mask），确保当前词只能看到之前的词，以防止模型在训练过程中“偷看”未来的信息。
多头注意力机制（Multi-Head Attention Mechanism）：
- 这里的注意力机制将解码器的输入与编码器的输出结合起来，以获取编码器提供的上下文信息。
前馈神经网络、残差连接和层规范化：
- 类似于编码器部分，解码器也包含前馈神经网络和相应的残差连接与层规范化。

解码器也由多个这样的层堆叠而成，每一层都执行上述操作。

关注