Transformer模型常见面试题总结以及回答【2025-4-7日最新更新】

自回归语言建模任务契合
大模型的预训练目标通常是下一token预测（自回归语言建模），这种任务要求模型按顺序生成文本。Decoder-only 架构天然适合这种自回归生成，因为它只需要处理单向的信息（即只能看到当前及之前的tokens），确保生成过程不会泄露未来信息。
架构简单且易于扩展
与 Encoder-Decoder 模型相比，Decoder-only 模型只需要一个Transformer模块，架构更为简洁。这使得模型在扩展参数规模（比如从数亿到数百亿甚至上千亿参数）时更加高效，也更容易在大规模预训练中达到优秀的表现。
多任务与零/少样本学习能力
经过大规模自回归预训练后，Decoder-only 模型具备了强大的语言理解和生成能力。通过合适的 prompt 设计，可以灵活地应对各种下游任务（如翻译、问答、摘要等），而无需特定的任务专用架构。
训练与推理一致性
在自回归任务中，训练过程和推理过程都要求单向生成，Decoder-only 架构在这两者之间保持了一致性，这对于模型的泛化和性能提升非常重要。

Transformer 中的自注意力机制（Self-Attention）如何工作？

自注意力机制通过将输入序列中的每个位置与其他所有位置进行关联来计算表示。具体步骤包括：

线性变换：将输入向量分别映射为 Query、Key 和 Value。
打分计算：通过计算 Query 与所有 Key 的点积，得到注意力得分。
归一化：对得分进行缩放（除以 √d_k，其中 d_k 是 Key 的维度）并使用 softmax 得到归一化权重。
加权求和：将归一化后的权重与对应的 Value 相乘并求和，形成新的表示。

这种机制可以捕捉到序列中各个位置之间的相关性，使模型能够灵活地关注重要的信息。

Transformer中计算注意力机制，除以根号下dk的原因？

Transformer 的注意力计算公式为：

其中，dk 是键（Key）的维度。除以根号下dk 的原因如下：

防止数值过大导致梯度消失
- QKTQK^TQKT 计算的是 Query 和 Key 之间的点积，如果 dkd_kdk 维度较大，那么点积的结果会增大，可能导致 softmax 的输入值过大，使得梯度消失（因为 softmax 会趋向于极端的 0 或 1）。
- 通过除以 dk\sqrt{d_k}dk，可以确保点积的数值适中，使得 softmax 具有良好的梯度传播效果。
保持方差稳定性
- 设 Query 和 Key 的分量均服从零均值、单位方差的分布（如标准正态分布），则点积 QKTQK^TQKT 的期望方差为 dkd_kdk。
- 如果不做缩放，随着 dkd_kdk 增大，点积的方差会增大，使得 softmax 过于尖锐（接近 one-hot），影响学习效果。
- 通过除以 dk\sqrt{d_k}dk，可以让输出保持稳定的方差，使模型收敛更稳定。

L1、L2正则化分别是怎么做的？

L1 正则化和 L2 正则化都是在模型训练过程中通过在损失函数中添加惩罚项来约束模型参数，以防止过拟合的常用技术。

L1正则化定义：

L1 正则化（也称为 Lasso 正则化）在损失函数中加入模型参数绝对值的和作为惩罚项。数学表达式通常为：

其中 λ 是正则化超参数，控制惩罚力度，wi 为模型的权重参数。

作用：
- 稀疏性： L1 正则化能使一些权重趋向于零，从而实现特征选择，得到一个更为稀疏的模型。
- 降维： 在高维数据中，可以帮助模型自动剔除不重要的特征，从而达到降维的效果。
应用场景：
- 在需要解释性较强或特征数较多的场景（如文本分类、基因数据分析）中，L1 正则化常用于线性回归和逻辑回归模型中。
- 也被用于一些神经网络中以促进模型的稀疏性，从而降低模型复杂度。

L2 正则化定义：
L2 正则化（也称为 Ridge 正则化）在损失函数中加入模型参数平方和作为惩罚项。数学表达式为：

同样，λ 控制正则化强度，wi 为权重参数。

作用：
- 平滑性： L2 正则化倾向于让模型的权重均匀分布，避免某些权重过大，从而提高模型的泛化能力。
- 稳定性： 有助于防止模型对训练数据中的噪声过于敏感，降低过拟合风险。
应用场景：
- 常用于各类回归问题（例如 Ridge 回归）、分类问题（如逻辑回归、支持向量机）以及神经网络中。
- 在大多数情况下，L2 正则化更常被采用，因为它在数学上具有良好的连续性和可微性，有助于梯度下降算法的收敛。

总结与比较

共同点：
- 两者都在原始损失函数基础上加上正则项，帮助控制模型复杂度并减少过拟合。
- 都需要设定正则化系数 λ\lambdaλ 来平衡原始损失和正则项之间的权重。
区别：
- L1 正则化 会产生稀疏解，即部分权重会被压缩到零，这对特征选择非常有利；
- L2 正则化 会使权重整体变小，但一般不会使权重完全为零，从而保留所有特征的信息，同时使模型更平滑。

应用总结

在机器学习中：
- 回归与分类模型： 例如线性回归、逻辑回归和支持向量机，常使用 L1 和 L2 正则化来增强模型的泛化能力。
- 深度学习： 在神经网络中，为了防止网络复杂度过高而导致过拟合，也会对网络权重进行 L2 正则化（有时称为权重衰减），有时也会结合 L1 正则化以获得稀疏特性。

通过使用 L1 和 L2 正则化，工程师可以在模型训练过程中对权重进行约束，平衡模型的拟合能力和泛化能力，从而提高模型在新数据上的表现。

什么是多头注意力（Multi-Head Attention），其优势是什么？

多头注意力将输入通过多个不同的线性变换生成多个 Query、Key、Value 组，每一组独立计算自注意力，最后将各组的结果拼接并再次线性变换。
优势包括：

捕捉多样化特征：不同的注意力头可以关注序列中不同的子空间信息，捕捉多种类型的依赖关系。
稳定训练过程：多个头分散了信息，使得每个头关注不同的模式，从而有助于模型学习更加鲁棒的表示。
提高表达能力：通过并行计算多个注意力头，模型可以更充分地利用信息，提高整体表达和建模能力。

为什么需要位置编码（Positional Encoding），常见的实现方式有哪些？

回答：
由于 Transformer 模型不包含递归结构，其输入是完全并行的，模型本身没有位置信息。为了解决这个问题，需要将位置信息引入模型中，这就是位置编码的作用。
常见实现方式包括：

固定位置编码：使用正弦和余弦函数生成位置编码，不同频率的周期函数保证了不同位置的编码具有唯一性。可以参考我另一篇文章 Transformer架构-0基础解读，由浅入深的理解
可学习的位置编码：将位置编码作为参数进行学习，允许模型在训练过程中自动调整位置信息的表示。

这两种方式都能为每个词添加位置信息，使模型能够区分不同位置上的词汇。

为什么 Transformer 采用 LayerNorm (LN) 而不是 BatchNorm (BN)？

Batch Normalization（BN）和 Layer Normalization（LN）都是用于加速训练并提高模型稳定性的归一化方法，但 Transformer 选择 LayerNorm 而不是 BatchNorm，主要有以下原因：

BN 依赖 batch 维度，而 LN 不依赖
- BN 计算的是 batch 内的均值和方差，而 Transformer 主要用于 自回归（如文本生成）或小 batch 任务（如翻译），此时 batch 可能很小，导致 BN 统计的均值和方差不稳定。
- LN 计算的是 单个样本的通道均值和方差，不依赖 batch 大小，因此更适合 Transformer。
Transformer 主要用于序列建模，而 BN 对变长序列不友好
- BN 需要对整个 batch 计算均值和方差，而在 NLP 任务中，输入通常是变长序列，BN 处理不同长度的序列时不方便，而 LN 是 针对每个样本的特征维度 归一化，所以更加适合 Transformer。
BN 在训练时依赖于 batch 统计量，影响自回归推理
- 训练时 BN 计算 batch 均值和方差，但推理时要用滑动平均，这可能会导致分布不匹配，影响生成任务的效果。
- LN 直接基于单个样本归一化，训练和推理时的归一化方式一致，提升了 Transformer 在生成任务中的稳定性。