Transformer中Encoder的计算过程及各部分维度变化

正在输入中。

已于 2024-07-14 17:07:18 修改

阅读量1.3k

点赞数 19

文章标签：人工智能

于 2024-07-12 20:14:51 首次发布

本文链接：https://blog.csdn.net/Zzzzyc_/article/details/140387758

版权

Transformer模型中的维度变化主要发生在以下几个部分：输入嵌入（embedding）、多头注意力机制（Multi-Head Attention）、前馈神经网络（Feed-Forward Neural Network）以及残差连接和层归一化（Residual Connection and Layer Normalization）。下面详细说明各部分的维度变化：

1. 输入嵌入

输入序列 $X$ 的维度通常为 $(n, d)$ ，其中 $n$ 是序列长度， $d$ 是嵌入维度。假设输入是一个词汇表索引序列，经过嵌入层（Embedding Layer）后，每个索引被转换为一个 $d$ 维的向量。

$\text{Input Embedding:} \quad X \in \mathbb{R}^{n \times d}$

2. 位置编码（Positional Encoding）

为了引入位置信息，Transformer会将位置编码（Positional Encoding）添加到输入嵌入中。位置编码的维度与输入嵌入的维度相同。

$\text{Positional Encoding:} \quad P \in \mathbb{R}^{n \times d}$
$\text{Input with Positional Encoding:} \quad X' = X + P$

3. 多头注意力机制（Multi-Head Attention）

多头注意力机制将输入分成 $h$ 个头，每个头的维度为 $d_k = d / h$ 。具体步骤如下：

线性变换生成查询、键、值矩阵：
$X'W_Q, \quad K = X'W_K, \quad V = X'W_V$
其中， $W_Q, W_K, W_V \in \mathbb{R}^{d \times d}$ 。
分成多个头：
$Q_i, K_i, V_i \in \mathbb{R}^{n \times d_k}$
其中， $i = 1, 2, ..., h$ 。
每个头独立计算注意力得分和加权和：
$\text{Attention}_i(Q_i, K_i, V_i) = \text{softmax}\left(\frac{Q_i K_i^T}{\sqrt{d_k}}\right) V_i$
拼接所有头的输出：
$\text{Concat}( \text{head}_1, \text{head}_2, ..., \text{head}_h) \in \mathbb{R}^{n \times d}$
通过线性变换得到最终输出：
$\text{Multi-Head Output} = \text{Concat} \cdot W_O$
其中， $W_O \in \mathbb{R}^{d \times d}$ 。

4. 前馈神经网络（Feed-Forward Neural Network）

前馈神经网络包括两个线性变换和一个激活函数（通常是ReLU），其输入和输出维度均为 $d$ 。

第一层线性变换：
$FFN_1(X) = \text{ReLU}(XW_1 + b_1)$
其中， $W_1 \in \mathbb{R}^{d \times d_{ff}}, b_1 \in \mathbb{R}^{d_{ff}}$ ，通常 $d_{ff} \gg d$ 。
第二层线性变换：
$FFN_2(X) = FFN_1(X)W_2 + b_2$
其中， $W_2 \in \mathbb{R}^{d_{ff} \times d}, b_2 \in \mathbb{R}^{d}$ 。

5. 残差连接和层归一化（Residual Connection and Layer Normalization）

Transformer中的每个子层（包括多头注意力和前馈神经网络）后面都包含残差连接和层归一化。

$\text{Output} = \text{LayerNorm}(X + \text{SubLayer}(X))$

综上所述，Transformer模型在各个部分的维度变化如下：

输入嵌入： $\mathbb{R}^{n \times d}$
位置编码： $\mathbb{R}^{n \times d}$
多头注意力： $\mathbb{R}^{n \times d}$
前馈神经网络： $\mathbb{R}^{n \times d}$
残差连接和层归一化： $\mathbb{R}^{n \times d}$
每个部分的输出维度保持不变，使得整个Transformer模型能够轻松堆叠多层，从而增加模型的深度和表达能力。