简单的Transformer模型手算示例

DayDayUper___

已于 2024-05-21 15:27:57 修改

阅读量762

点赞数 20

分类专栏：大模型白皮书（攻防）大模型手算神经网络文章标签： transformer 深度学习人工智能

于 2024-05-21 11:10:18 首次发布

本文链接：https://blog.csdn.net/weixin_42688573/article/details/139087082

版权

大模型白皮书（攻防）同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

大模型

3 篇文章 0 订阅

订阅专栏

手算神经网络

2 篇文章 0 订阅

订阅专栏

简单的Transformer模型手算示例

一、Transformer模型架构
二、初始化参数
三、前向传播
四、计算损失
五、反向传播
六、总结

一、Transformer模型架构

输入维度: 2
每个注意力头的维数: 4
隐藏层维度: 5
输出维度: 2
注意力头数: 3（多头注意力）
层数: 1（单层Transformer Encoder）
激活函数: ReLU

二、初始化参数

输入序列:
$\mathbf{x} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}$
（2个时间步，每个时间步2个特征）
词嵌入权重矩阵（假设直接作为输入使用）：
$\mathbf{W_{emb}} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$
注意力权重矩阵（假设直接使用初始输入作为查询、键和值）：
- 查询权重矩阵:
  $\mathbf{W_Q} = \begin{bmatrix} 0.1 & 0.2 & 0.3 & 0.4 \\ 0.5 & 0.6 & 0.7 & 0.8 \end{bmatrix}$
- 键权重矩阵:
  $\mathbf{W_K} = \begin{bmatrix} 0.2 & 0.3 & 0.4 & 0.5 \\ 0.6 & 0.7 & 0.8 & 0.9 \end{bmatrix}$
- 值权重矩阵:
  $\mathbf{W_V} = \begin{bmatrix} 0.3 & 0.4 & 0.5 & 0.6 \\ 0.7 & 0.8 & 0.9 & 1.0 \end{bmatrix}$
输出层权重矩阵（用于最后的线性变换）：
$\mathbf{W_O} = \begin{bmatrix} 1 & 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 \end{bmatrix}$
目标输出：
$\mathbf{y} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$

三、前向传播

词嵌入（在这个例子中，词嵌入权重矩阵为单位矩阵，等于输入）：
$\mathbf{e} = \mathbf{x} \mathbf{W_{emb}} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}$
计算查询、键和值（对每个注意力头单独计算）：

头1:
$\mathbf{Q_1} = \mathbf{e} \mathbf{W_{Q1}} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} \begin{bmatrix} 0.1 & 0.2 & 0.3 & 0.4 \\ 0.5 & 0.6 & 0.7 & 0.8 \end{bmatrix} = \begin{bmatrix} 1.1 & 1.4 & 1.7 & 2.0 \\ 2.3 & 3.0 & 3.7 & 4.4 \end{bmatrix}$
$\mathbf{K_1} = \mathbf{e} \mathbf{W_{K1}} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} \begin{bmatrix} 0.2 & 0.3 & 0.4 & 0.5 \\ 0.6 & 0.7 & 0.8 & 0.9 \end{bmatrix} = \begin{bmatrix} 1.4 & 1.7 & 2.0 & 2.3 \\ 3.2 & 4.1 & 5.0 & 5.9 \end{bmatrix}$
$\mathbf{V_1} = \mathbf{e} \mathbf{W_{V1}} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} \begin{bmatrix} 0.3 & 0.4 & 0.5 & 0.6 \\ 0.7 & 0.8 & 0.9 & 1.0 \end{bmatrix} = \begin{bmatrix} 1.7 & 2.0 & 2.3 & 2.6 \\ 3.8 & 4.6 & 5.4 & 6.2 \end{bmatrix}$
头2:
$\mathbf{Q_2} = \mathbf{e} \mathbf{W_{Q2}} = \mathbf{Q_1}$
$\mathbf{K_2} = \mathbf{e} \mathbf{W_{K2}} = \mathbf{K_1}$
$\mathbf{V_2} = \mathbf{e} \mathbf{W_{V2}} = \mathbf{V_1}$
头3:
$\mathbf{Q_3} = \mathbf{e} \mathbf{W_{Q3}} = \mathbf{Q_1}$
$\mathbf{K_3} = \mathbf{e} \mathbf{W_{K3}} = \mathbf{K_1}$
$\mathbf{V_3} = \mathbf{e} \mathbf{W_{V3}} = \mathbf{V_1}$

计算注意力得分（点积注意力）：

头1:
$\text{Attention Scores}_1 = \mathbf{Q_1} \mathbf{K_1}^T = \begin{bmatrix} 1.1 & 1.4 & 1.7 & 2.0 \\ 2.3 & 3.0 & 3.7 & 4.4 \end{bmatrix} \begin{bmatrix} 1.4 & 3.2 \\ 1.7 & 4.1 \\ 2.0 & 5.0 \\ 2.3 & 5.9 \end{bmatrix} = \begin{bmatrix} 12.8 & 31.8 \\ 28.6 & 72.6 \end{bmatrix}$
头2:
$\text{Attention Scores}_2 = \mathbf{Q_2} \mathbf{K_2}^T = \text{Attention Scores}_1$
头3:
$\text{Attention Scores}_3 = \mathbf{Q_3} \mathbf{K_3}^T = \text{Attention Scores}_1$

计算注意力权重（使用softmax函数）：

为了简化手算，我们假设注意力权重为相等分布（即忽略softmax计算）：
$\text{Attention Weights}_1 \approx \begin{bmatrix} 0.5 & 0.5 \\ 0.5 & 0.5 \end{bmatrix}$
$\text{Attention Weights}_2 \approx \text{Attention Weights}_1$
$\text{Attention Weights}_3 \approx \text{Attention Weights}_1$

计算注意力输出：

头1:
$\text{Attention Output}_1 = \text{Attention Weights}_1 \mathbf{V_1} = \begin{bmatrix} 0.5 & 0.5 \\ 0.5 & 0.5 \end{bmatrix} \begin{bmatrix} 1.7 & 2.0 & 2.3 & 2.6 \\ 3.8 & 4.6 & 5.4 & 6.2 \end{bmatrix} = \begin{bmatrix} 2.75 & 3.3 & 3.85 & 4.4 \\ 2.75 & 3.3 & 3.85 & 4.4 \end{bmatrix}$
头2:
$\text{Attention Output}_2 = \text{Attention Output}_1$
头3:
$\text{Attention Output}_3 = \text{Attention Output}_1$

多头注意力输出的连接和线性变换：

将三个头的输出连接起来（concat），然后通过线性变换：
$\text{Multi-Head Attention Output} = \begin{bmatrix} \text{Attention Output}_1 & \text{Attention Output}_2 & \text{Attention Output}_3 \end{bmatrix} = \begin{bmatrix} 2.75 & 3.3 & 3.85 & 4.4 & 2.75 & 3.3 & 3.85 & 4.4 & 2.75 & 3.3 & 3.85 & 4.4 \\ 2.75 & 3.3 & 3.85 & 4.4 & 2.75 & 3.3 & 3.85 & 4.4 & 2.75 & 3.3 & 3.85 & 4.4 \end{bmatrix}$

应用线性变换：
$\mathbf{\hat{y}} = \text{Multi-Head Attention Output} \mathbf{W_O} = \begin{bmatrix} 2.75 & 3.3 & 3.85 & 4.4 & 2.75 & 3.3 & 3.85 & 4.4 & 2.75 & 3.3 & 3.85 & 4.4 \\ 2.75 & 3.3 & 3.85 & 4.4 & 2.75 & 3.3 & 3.85 & 4.4 & 2.75 & 3.3 & 3.85 & 4.4 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \\ 0 & 0 \\ 0 & 0 \\ 0 & 0 \\ 0 & 0 \\ 0 & 0 \\ 0 & 0 \\ 0 & 0 \\ 0 & 0 \\ 0 & 0 \end{bmatrix} = \begin{bmatrix} 2.75 & 3.3 \\ 2.75 & 3.3 \end{bmatrix}$

四、计算损失

使用均方误差（MSE）损失函数：
$\frac{1}{2} \sum (\hat{y} - y)^2 = \frac{1}{2} \left[ (2.75 - 1)^2 + (3.3 - 0)^2 + (2.75 - 0)^2 + (3.3 - 1)^2 \right]$
$\frac{1}{2} \left[ 3.0625 + 10.89 + 7.5625 + 5.29 \right] = \frac{1}{2} \times 26.805 = 13.4025$

五、反向传播

为了简化，假设只计算损失函数关于注意力输出的梯度，不考虑具体更新权重的细节。

损失函数关于注意力输出的梯度：
$\frac{\partial L}{\partial \text{Attention Output}} = (\text{Attention Output} - y) = \begin{bmatrix} 2.75 - 1 & 3.3 - 0 \\ 2.75 - 0 & 3.3 - 1 \end{bmatrix} = \begin{bmatrix} 1.75 & 3.3 \\ 2.75 & 2.3 \end{bmatrix}$
更新注意力输出（梯度下降，学习率为0.1）：
$\text{Attention Output New} = \text{Attention Output} - 0.1 \times \frac{\partial L}{\partial \text{Attention Output}} = \begin{bmatrix} 2.75 & 3.3 \\ 2.75 & 3.3 \end{bmatrix} - 0.1 \times \begin{bmatrix} 1.75 & 3.3 \\ 2.75 & 2.3 \end{bmatrix}$
$\text{Attention Output New} = \begin{bmatrix} 2.575 & 2.97 \\ 2.475 & 3.07 \end{bmatrix}$

六、总结

通过这个手算示例，我们展示了Transformer模型使用三头注意力机制、每个注意力头的维数为4，隐藏层维度为5的前向传播、计算损失和反向传播的基本过程。为了简化计算，我们对注意力计算和softmax进行了近似处理。实际应用中，Transformer模型的计算会复杂得多，但基本原理是相同的。这个例子有助于理解Transformer模型的基本工作机制和训练过程。

DayDayUper___

关注

20
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
简单的Transformer模型手算示例

通过这个手算示例，我们展示了Transformer模型使用三头注意力机制、每个注意力头的维数为4，隐藏层维度为5的前向传播、计算损失和反向传播的基本过程。为了简化计算，我们对注意力计算和softmax进行了近似处理。实际应用中，Transformer模型的计算会复杂得多，但基本原理是相同的。这个例子有助于理解Transformer模型的基本工作机制和训练过程。
复制链接

扫一扫