GPT-2 Medium 是 GPT-2 系列中一个非常重要的版本,具备较大的模型规模和强大的生成能力。本文将详细讲解 GPT-2 Medium 从输入到输出的每一层的维度变化,帮助大家更加深入地理解其内部的处理机制。
GPT-2 Medium 由 24 层 Transformer Decoder 堆叠而成,具有 d_model = 1024
的隐藏层维度,以及 16 个注意力头。在接下来的内容中,我们将逐层详细解析其维度变化。
一、GPT-2 Medium 模型的基本参数
-
层数 (L):24 层 Transformer Decoder
-
隐藏层维度 (d_model):1024
-
注意力头数量 (h):16
-
每个注意力头的维度 (d_k):
d_k = d_model / h = 1024 / 16 = 64
-
词汇表大小 (V):假设词汇表大小为
V
假设输入的文本序列长度为 n
,接下来将详细讲解 GPT-2 Medium 每一层的维度变化。
二、词嵌入与位置编码
1. 词嵌入层
首先,我们的输入是一个长度为 n
的单词序列,GPT-2 会通过 词嵌入矩阵 将每个单词映射为 d_model = 1024
维的向量。